
UI-TARS - 字节跳动 GUI 自动化智能体
字节跳动开源多模态智能体,桌面/浏览器/手机自动化操作,游戏任务 SOTA
介绍
UI-TARS 是字节跳动 Seed 团队开源的多模态智能体模型,专门用于自动化 GUI 交互,包括桌面、浏览器和手机操作。
核心能力
| 能力 | 表现 |
|---|---|
| 桌面自动化 | OSWorld 基准 42.5%(超越 OpenAI CUA 36.4%) |
| 浏览器操作 | WebVoyager 84.8%,Online-Mind2web 75.8% |
| 手机控制 | Android World 64.2% |
| 游戏任务 | Poki 游戏 100% 通关率 |
| GUI 定位 | ScreenSpotPro 61.6%(远超 Claude 3.7 的 27.7%) |
模型版本
- UI-TARS-2 (最新) - All-in-One 智能体,支持 GUI/游戏/代码/工具调用
- UI-TARS-1.5-7B - 开源版本,专注通用计算机使用
使用方式
支持 HuggingFace 部署,提供桌面版 UI-TARS-desktop 和 Web 自动化 Midscene.js 集成。
技术特点
- 基于 Qwen2.5-VL 架构
- 强化学习增强推理能力
- 支持绝对坐标定位
- 推理时扩展(Inference-time scaling)
字节跳动出品,MIT 协议开源。
暂无评论
