AEPO：智能体熵平衡策略优化，让探索更稳，推理更深！

周大发表于 2025-11-1 13:53:47

中国人民大学与快手联合提出AEPO算法，系统性解决智能体强化学习中的熵失衡问题。通过动态熵平衡采样与熵感知策略优化，AEPO在14项基准测试中显著优于7种主流方法，GAIA任务Pass@5达65.0%，且训练更稳定、采样更多样，已开源并引发广泛关注。
来源：https://mp.weixin.qq.com/s/mL3CTNonZVoLWnQVfK7KAw

		自动登录	找回密码
密码			立即注册

课程导航

AEPO：智能体熵平衡策略优化，让探索更稳，推理更深！