
Gemini Computer Use Preview - Google浏览器自动化代理
Google Gemini的浏览器自动化工具,用自然语言控制浏览器执行操作,支持Playwright和Browserbase
介绍
Gemini Computer Use Preview 是 Google 推出的浏览器自动化代理工具,使用 Gemini 模型理解自然语言指令并控制浏览器执行操作。
核心功能
- 自然语言控制 - 用中文或英文描述操作,AI 自动执行
- 浏览器自动化 - 点击、输入、滚动、导航等所有浏览器操作
- 多环境支持 - 本地 Playwright 或云端 Browserbase
- 截图理解 - AI 通过截图理解页面状态并决策下一步
使用示例
支持的环境
- Playwright - 本地 Chrome 浏览器自动化
- Browserbase - 云端浏览器实例
模型选择
- gemini-2.5-computer-use-preview-10-2025(默认)
- gemini-3-flash-preview
使用方式
- 克隆仓库并安装依赖
- 设置 GEMINI_API_KEY 或 Vertex AI 凭证
- 运行 main.py 并输入自然语言指令
GitHub: https://github.com/google-gemini/computer-use-preview
暂无评论
