刚刚!北大校友Lilian Weng最新博客来了:Why We Think

[复制链接]
周大 发表于 2025-5-18 14:51:40 | 显示全部楼层 |阅读模式
Lilian Weng 发表了一篇关于测试时计算(“思考时间”)及其作用机制的文章,探讨了通过延长模型思考时间来提升其在复杂任务上的表现。文章指出,思维链(CoT)和测试时计算策略的优化显著提高了模型性能,尤其是在逻辑推理和长文本理解方面。同时,文章深入分析了并行采样与序列修订两种主要策略,并强调强化学习在提升 CoT 推理能力中的重要作用。此外,文章提出了未来研究方向,包括如何让模型更高效地利用有限的计算资源以及避免潜在问题如 reward hacking。
来源:https://mp.weixin.qq.com/s/fcDRzd3cwuM_JOnQW5XRMQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 22:41 , Processed in 0.301958 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表