开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

[复制链接]
周大 发表于 2025-10-8 14:47:29 | 显示全部楼层 |阅读模式
来自卡内基梅隆大学与香港大学等机构的研究者提出 Verlog,一种面向长时程、多回合任务的强化学习框架,可支持超 400 回合的复杂决策任务,显著超越此前约 10–50 回合的限制。该框架基于 Qwen-2.5-Instruct 构建,在 Crafter、BabyAI 等基准测试中表现稳定,平均回合达 190 步,最长 400 步。通过引入记忆机制、Dual Discounting GAE 算法及固定回合批处理等技术,Verlog 有效应对了长历史、稀疏奖励与变长轨迹等挑战,在使用 8 张 H100 或 4 张 A40 GPU 的训练下实现高效性能,>95% 动作有效,致力于推动 LLM-Agent 长期推理能力的发展。
来源:https://mp.weixin.qq.com/s/jBxNXqqjSnDzEfP5ONyrhA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 22:21 , Processed in 0.271489 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表