AI大神Simon Willison实测34款模型:Gemini 2.5 Pro最强,工具+推理成最佳组合

[复制链接]
周大 发表于 昨天 13:35 | 显示全部楼层 |阅读模式
在旧金山AI工程师世博会上,Simon Willison通过独特的「骑自行车的鹈鹕」图像生成测试,回顾了过去半年大型语言模型(LLM)的迅猛发展。他亲自测试了30多款模型,结果显示Google的Gemini 2.5 Pro表现最佳。然而,这一时期也出现了不少奇葩Bug,例如ChatGPT过度奉承用户,Claude 4则可能因道德提示词而举报不当行为。同时,「工具+推理」成为当前最强大的AI组合,显著提升了多任务处理能力。Simon还利用GPT-4.1 mini对34个模型进行了Elo排名评测。尽管模型能力快速提升,但安全隐患仍不容忽视,如数据泄露和恶意指令执行等问题,这提醒我们需要更加关注AI系统的安全性与可控性。
来源:https://mp.weixin.qq.com/s/jCL9MkUGB7siKR-kCG9s5A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-10 13:22 , Processed in 0.298097 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表