LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

[复制链接]
周大 发表于 昨天 14:19 | 显示全部楼层 |阅读模式
来自UCSD与英特尔的研究团队提出并开源了首个支持多大语言模型智能体协同训练的强化学习框架PettingLLMs,突破现有单智能体训练局限。该框架通过改进GRPO算法,引入树状采样与异步路由系统,支持专属或共享模型训练模式。在Qwen3-1.7B/8B上的实验显示,其在规划、代码与数学任务中显著提升性能,如推箱子任务准确率从14%升至96%,AIME 25提升17.9%,验证了多智能体协同进化的有效性。
来源:https://mp.weixin.qq.com/s/GXu75ABdVjdrVrAdNXXgow

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 03:00 , Processed in 0.289617 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表