不改模型也能提升推理性能？ICLR投稿提出测试时扩展新范式OTV

周大发表于 2025-10-23 15:05:53

ICLR 2026一篇投稿论文提出单token验证（OTV）机制，利用键值缓存和LoRA轻量验证器，在不改动模型结构前提下实现对大语言模型推理过程的实时监控。实验表明，OTV在Qwen系列模型上显著优于DeepConf、GenRM及多种外部奖励模型，在AIME数学任务中准确率更高，且可通过动态路径淘汰策略在计算量减少近90%时维持性能。该方法高效、可扩展，为提升AI推理可靠性与安全性提供新路径。
来源：https://mp.weixin.qq.com/s/xupnosxE1R2s1RjocYsHJw

		自动登录	找回密码
密码			立即注册

课程导航

不改模型也能提升推理性能？ICLR投稿提出测试时扩展新范式OTV