扩展外部测试时Scaling Law,中关村学院新发现:轻量级验证器可解锁LLM推理最优选择

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
北京中关村学院、哈工大等机构联合提出TrajSelector方法,通过复用大模型隐状态实现高效的外部测试时扩展。该方法使用仅0.6B参数的轻量级模型对推理路径打分,在无需人工标注的情况下,于AMC、AIME等多个数学基准上展现出比传统7B过程奖励模型更稳定的性能提升,为大模型推理的实用化提供了低成本、高效率的新路径。
来源:https://mp.weixin.qq.com/s/mDgspKrltG1IpejesMuJIw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:06 , Processed in 0.282212 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表