微软研究院用7B模型实现o1级推理能力

[复制链接]
周大 发表于 2025-5-25 15:24:18 | 显示全部楼层 |阅读模式
微软亚洲研究院张丽团队突破传统Scaling Law路径,率先探索大模型深度推理能力。通过引入认知科学概念“System2”,团队利用蒙特卡洛搜索算法,成功让7B参数规模的模型达到OpenAI o1级别的数学推理水平。这一成果引发学界与业界广泛关注,特别是在强化学习主导的当下提供了新思路。rStar-Math不仅展示了强大的数学推理能力,还具有广泛的任务泛化潜力,未来可能扩展至代码推理等复杂任务。同时,研究强调了奖励模型在未来大模型发展中的关键作用,为提升模型智商上限开辟了新方向。
来源:https://mp.weixin.qq.com/s/ah3FZc-jbLpo9157Y93yng

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 11:04 , Processed in 0.296101 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表