阿里开源QwenLong-L1长文本深度思考模型,渐进式强化学习提升推理性能登HuggingFace热榜

[复制链接]
周大 发表于 2025-5-27 16:17:47 | 显示全部楼层 |阅读模式
阿里开源的长文本推理模型QwenLong-L1在多项评测中表现出色,其32B参数版本性能媲美Claude-3.7-Sonnet-Thinking,超越OpenAI-o3-mini等模型。该模型通过渐进式上下文扩展训练框架,结合预热监督微调与分阶段强化学习,有效解决了长文本推理中的效率与稳定性问题。同时,其混合奖励函数设计提升了开放性答案的准确性。实验显示,QwenLong-L1在金融文档推理中能过滤干扰信息,正确整合关键数据,显著优于传统模型。研究还指出,虽然SFT经济高效,但强化学习对于最优性能至关重要。
来源:https://mp.weixin.qq.com/s/t3zh6R8KgO-HRoPPle3pug

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 07:27 , Processed in 0.258544 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表