Claude 3.5 Sonnet领衔自动售货机管理测试

[复制链接]
周大 发表于 2025-5-25 15:12:34 | 显示全部楼层 |阅读模式
研究人员设计了Vending-Bench模拟环境,用于评估大模型管理自动售货机的长期能力。实验显示,Claude 3.5 Sonnet在净资产方面表现最优,而o3-mini则在持续时间上领先,达到222天。尽管模型能够完成短期任务,但在长期运行中普遍存在误解配送时间或陷入崩溃循环的问题。研究发现,运营失败与内存限制无关,所有模型最终均停止运营,表现波动显著。这表明大模型在长时间连续决策方面仍面临挑战。
来源:https://mp.weixin.qq.com/s/yyEukQYJ9XDIXd9er0fdJw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 11:03 , Processed in 0.308798 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表