开源RL框架Verlog来了，专为LLM智能体打造，400回合不成问题

周大发表于 2025-10-8 14:47:29

来自卡内基梅隆大学与香港大学等机构的研究者提出 Verlog，一种面向长时程、多回合任务的强化学习框架，可支持超 400 回合的复杂决策任务，显著超越此前约 10–50 回合的限制。该框架基于 Qwen-2.5-Instruct 构建，在 Crafter、BabyAI 等基准测试中表现稳定，平均回合达 190 步，最长 400 步。通过引入记忆机制、Dual Discounting GAE 算法及固定回合批处理等技术，Verlog 有效应对了长历史、稀疏奖励与变长轨迹等挑战，在使用 8 张 H100 或 4 张 A40 GPU 的训练下实现高效性能，>95% 动作有效，致力于推动 LLM-Agent 长期推理能力的发展。
来源：https://mp.weixin.qq.com/s/jBxNXqqjSnDzEfP5ONyrhA

		自动登录	找回密码
密码			立即注册

课程导航

开源RL框架Verlog来了，专为LLM智能体打造，400回合不成问题