AlphaGo之父找到创造强化学习算法新方法:让AI自己设计

[复制链接]
周大 发表于 2025-10-28 15:09:10 | 显示全部楼层 |阅读模式
谷歌 DeepMind 团队在《Nature》发表研究,提出通过元学习在复杂环境中自动发现强化学习算法。该方法利用智能体与元网络协同优化,成功发现了名为DiscoRL的新规则。其中Disco57在Atari基准上以13.86 IQM分数超越所有现有方法,运行效率也高于MuZero,并在ProcGen、Crafter、NetHack等未见任务中表现优异。使用103个多样化环境训练出的Disco103进一步提升了性能,在Crafter达到人类水平。研究证明,从复杂环境中自动发现高效RL算法是可行且可扩展的,为未来AI自我改进提供了新路径。
来源:https://mp.weixin.qq.com/s/397ERYH71kGVRKBL6Wjpiw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:17 , Processed in 0.281366 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表