超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
来自加拿大滑铁卢大学与TikTok新加坡的华人团队提出了一种名为General-Reasoner的新训练框架,显著提升了Qwen系列大模型的跨领域推理能力,准确率提高近10%,并在多项基准测试中超越GPT-4o。该框架通过构建包含23万道高质量问题的全领域推理数据集(WebInstruct-verified)和开发仅1.5B参数的生成式答案验证器(General-Verifier),有效解决了传统方法在泛化能力和验证灵活性上的不足。实测表明,基于Qwen2.5/Qwen3系列模型的General-Reasoner在数学推理和跨领域任务中表现出色,未来团队将致力于进一步优化模型性能与数据质量。
来源:https://mp.weixin.qq.com/s/GDe5Dm17ekCCbUwKO475iA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 17:38 , Processed in 0.298758 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表