LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

周大发表于昨天 14:19

来自UCSD与英特尔的研究团队提出并开源了首个支持多大语言模型智能体协同训练的强化学习框架PettingLLMs，突破现有单智能体训练局限。该框架通过改进GRPO算法，引入树状采样与异步路由系统，支持专属或共享模型训练模式。在Qwen3-1.7B/8B上的实验显示，其在规划、代码与数学任务中显著提升性能，如推箱子任务准确率从14%升至96%，AIME 25提升17.9%，验证了多智能体协同进化的有效性。
来源：https://mp.weixin.qq.com/s/GXu75ABdVjdrVrAdNXXgow

		自动登录	找回密码
密码			立即注册

课程导航

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍