DeepMind再登Nature：AI Agent造出了最强RL算法

周大发表于 2025-10-28 15:04:03

Google DeepMind 在《Nature》发表研究，提出 DiscoRL 方法，使智能体可通过多环境交互自主发现强化学习规则。实验显示，Disco57 在 Atari 基准 IQM 得分达 13.86，超越 MuZero 等主流算法，并在 ProcGen、Crafter 和 NetHack 等未见任务中展现优异泛化能力。基于103个环境训练的 Disco103 表现更优，表明规则性能随环境多样性提升而增强。最优规则在约6亿步内被发现，效率远超人工设计。该成果暗示未来AI算法开发或将由机器主导，依赖数据与算力扩展，而非人类干预。
来源：https://tech.ifeng.com/c/8nmnws4Ar5Q

		自动登录	找回密码
密码			立即注册

课程导航

DeepMind再登Nature：AI Agent造出了最强RL算法