谷歌 DeepMind 推出 Gemini 2.5 Computer Use 模型,可通过自然语言指令在浏览器中执行点击、输入等操作,在多项基准测试中达到 SOTA 水平且运行速度快。该模型基于循环式 API 流程运作,目前主要面向网页环境,已在 Google AI Studio 和 Vertex AI 开放接入。尽管在简单任务中表现良好,复杂任务仍存在失败情况。谷歌强调其内置多层次安全机制,防止滥用和高风险操作,标志着 AI 智能体在人机交互中的进一步演进。
来源:https://mp.weixin.qq.com/s/7j9hC317kcixXz2qiPWVBQ