只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

[复制链接]
周大 发表于 2025-10-14 14:09:10 | 显示全部楼层 |阅读模式
阿里高德提出Tree-GRPO方法,通过以“智能体步骤”为单位的树搜索,提升强化学习采样效率。在11个任务中,该方法显著优于传统链式RL,最高实现69%性能提升,并能在1/4预算下仍取得更优结果,有效缓解Agentic RL中的高成本与稀疏奖励问题。
来源:https://mp.weixin.qq.com/s/7Ym9sK7ZguFYl56vqGlEHQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 15:28 , Processed in 0.290872 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表