DeepMind再登Nature:AI Agent造出了最强RL算法

[复制链接]
周大 发表于 2025-10-28 15:04:03 | 显示全部楼层 |阅读模式
Google DeepMind 在《Nature》发表研究,提出 DiscoRL 方法,使智能体可通过多环境交互自主发现强化学习规则。实验显示,Disco57 在 Atari 基准 IQM 得分达 13.86,超越 MuZero 等主流算法,并在 ProcGen、Crafter 和 NetHack 等未见任务中展现优异泛化能力。基于103个环境训练的 Disco103 表现更优,表明规则性能随环境多样性提升而增强。最优规则在约6亿步内被发现,效率远超人工设计。该成果暗示未来AI算法开发或将由机器主导,依赖数据与算力扩展,而非人类干预。
来源:https://tech.ifeng.com/c/8nmnws4Ar5Q

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 09:26 , Processed in 0.298550 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表