AlphaGo之父找到创造强化学习算法新方法：让AI自己设计

周大发表于 2025-10-28 15:09:10

谷歌 DeepMind 团队在《Nature》发表研究，提出通过元学习在复杂环境中自动发现强化学习算法。该方法利用智能体与元网络协同优化，成功发现了名为DiscoRL的新规则。其中Disco57在Atari基准上以13.86 IQM分数超越所有现有方法，运行效率也高于MuZero，并在ProcGen、Crafter、NetHack等未见任务中表现优异。使用103个多样化环境训练出的Disco103进一步提升了性能，在Crafter达到人类水平。研究证明，从复杂环境中自动发现高效RL算法是可行且可扩展的，为未来AI自我改进提供了新路径。
来源：https://mp.weixin.qq.com/s/397ERYH71kGVRKBL6Wjpiw

		自动登录	找回密码
密码			立即注册

课程导航

AlphaGo之父找到创造强化学习算法新方法：让AI自己设计