阿里开源QwenLong-L1长文本深度思考模型，渐进式强化学习提升推理性能登HuggingFace热榜

周大发表于 2025-5-27 16:17:47

阿里开源的长文本推理模型QwenLong-L1在多项评测中表现出色，其32B参数版本性能媲美Claude-3.7-Sonnet-Thinking，超越OpenAI-o3-mini等模型。该模型通过渐进式上下文扩展训练框架，结合预热监督微调与分阶段强化学习，有效解决了长文本推理中的效率与稳定性问题。同时，其混合奖励函数设计提升了开放性答案的准确性。实验显示，QwenLong-L1在金融文档推理中能过滤干扰信息，正确整合关键数据，显著优于传统模型。研究还指出，虽然SFT经济高效，但强化学习对于最优性能至关重要。
来源：https://mp.weixin.qq.com/s/t3zh6R8KgO-HRoPPle3pug

		自动登录	找回密码
密码			立即注册

课程导航

阿里开源QwenLong-L1长文本深度思考模型，渐进式强化学习提升推理性能登HuggingFace热榜