伊利诺伊大学团队推Time-R1,3B小模型借三阶段强化学习实现全面时间推理碾压671B大模型

[复制链接]
周大 发表于 昨天 13:34 | 显示全部楼层 |阅读模式
伊利诺伊大学香槟分校的研究人员开发了 Time-R1,一个仅 3B 参数的小型语言模型,通过三阶段强化学习和动态奖励机制,解决了大语言模型在时间推理上的技术短板。该模型通过构建时间认知基础、预测未来事件和生成创造性场景,展现了卓越的时间推理能力,并在实验中超越了参数量 200 多倍的大模型。动态奖励机制根据任务难度和训练进程调整奖励,有效提升了模型性能。此外,研究团队开源了 Time-Bench 数据集及完整训练代码,促进相关领域的发展。这一成果为实现真正具备时间意识的人工智能提供了实用路径。
来源:https://mp.weixin.qq.com/s/HOG8Es3sefi91f7XoMDhNQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-10 12:50 , Processed in 0.292697 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表