仅需10%思维链标注,等同全量性能!计算所发布推理监督新范式

[复制链接]
周大 发表于 2025-10-28 15:15:13 | 显示全部楼层 |阅读模式
中国科学院计算所团队提出PARO框架,利用大模型在预设推理模式下自动生成思维链,仅用1/10数据即在金融类任务中达到全量人工标注性能。研究表明,对于模式化推理任务(如审计、风控),推理模式比思维链数量和质量更重要,SFT+RLVR范式能有效内化逻辑结构。该方法大幅降低标注成本,为规则明确领域的高效模型训练提供了可落地的新路径。
来源:https://mp.weixin.qq.com/s/QAKibtRUEX7J-9noFnjuAA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:16 , Processed in 0.280331 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表