科学家发现，AI大语言模型仍难以区分“信念”与“事实”

周大发表于前天 15:55

斯坦福大学一项发表于《自然・机器智能》的研究显示，24 款主流 AI 模型（如 ChatGPT、Claude、Gemini）在区分用户信念与事实方面表现不佳，面对第一人称虚假信念时识别准确率显著下降，GPT-4o 和 DeepSeek R1 准确率分别骤降 33.8 和 75.6 个百分点。研究基于 13,000 个问题测试，揭示模型普遍存在“知识真实性”理解缺陷，易产生幻觉，高风险领域应用存隐患。苹果与 MIT 近期研究也表明，AI 推理能力被高估且企业落地成效有限，95% 部署未获回报，凸显技术局限与集成挑战。
来源：https://tech.ifeng.com/c/8o58EpzBvOU

		自动登录	找回密码
密码			立即注册

课程导航

科学家发现，AI大语言模型仍难以区分“信念”与“事实”