腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

[复制链接]
周大 发表于 2025-10-11 19:27:26 | 显示全部楼层 |阅读模式
腾讯优图实验室开源新型强化学习算法SPEAR,通过“自我模仿+渐进探索”机制,在无需专家示范下实现LLM智能体的熵稳定学习。该算法在ALFWorld、WebShop、AIME24/25等多个基准上平均提升超16%,其中WebShop任务成功率提升20.7%,Sokoban任务较先前最佳提升19.6%。结合Dr.BoT增强基线,兼容主流训练框架,训练效率高,支持多模态任务且可即插即用,相关代码与模型已公开。
来源:https://mp.weixin.qq.com/s/34buBEy-7la0IzJcvdwgiQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 17:52 , Processed in 0.284584 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表