大模型多轮对话性能暴跌39%，易陷“对话迷失”困境

周大发表于 2025-6-7 15:27:33

研究人员通过超过20万次模拟实验揭示，大模型在多轮对话中的表现较单轮对话平均下降39%，这一现象被称为“对话迷失”。实验设计了多种对话模拟类型，发现性能下降主要源于多轮对话的不明确性，而非信息丢失。较小模型在合并对话中的表现下降更显著，表明其泛化能力不足。此外，增加测试时的计算量或生成更长回答，并未有效改善多轮对话的表现，反而可能加剧模型的认知混淆。研究为优化大模型在真实场景中的对话能力提供了重要参考。
来源：https://mp.weixin.qq.com/s/MkhQseSajFnnrn0M_EtCSg

		自动登录	找回密码
密码			立即注册

课程导航

大模型多轮对话性能暴跌39%，易陷“对话迷失”困境