Google DeepMind在Nature发表研究,提出DiscoRL方法,使智能体能在多环境交互中自主发现强化学习规则。实验显示,基于57款Atari游戏训练的Disco57以IQM 13.86成绩超越MuZero等主流算法,并在ProcGen、Crafter和NetHack等未见任务中展现强泛化能力;扩展至103个环境的Disco103表现更优。最优规则在约6亿步内被发现,效率远超人工设计。研究表明,RL算法性能随环境多样性与计算量提升而增强,未来高级AI的算法或可由机器自动构建。
来源:https://mp.weixin.qq.com/s/fVKbQfpUd3yVBlEkxIj9xQ