💬 观点Google DeepMind
Introducing computer use in Gemini 3.5 Flash — Gemini 3.5 Flash 新增计算机使用能力,可操控桌面应用。
Gemini 3.5 Flash 新增计算机使用能力,可操控桌面应用。
2026-06-24原文
本文为要点摘要,完整细节以原文为准。
- 模型能直接控制鼠标和键盘,执行点击、输入等操作,模拟人类与软件交互。这意味着 agent 可自动化传统 GUI 任务,无需 API 支持。
- 通过屏幕截图理解界面,并生成坐标和动作序列,实现跨平台操作。开发者可构建能操作任意桌面应用的通用 agent。
- 该能力在测试中完成网页导航、数据录入等复杂任务,错误率低于同类方案。这为工具链提供了更鲁棒的 GUI 自动化基础。
原文:Introducing computer use in Gemini 3.5 Flash · 作者 Google DeepMind