# UI-TARS - 字节跳动 GUI 自动化智能体 > 字节跳动开源多模态智能体,桌面/浏览器/手机自动化操作,游戏任务 SOTA ## 介绍 UI-TARS 是字节跳动 Seed 团队开源的多模态智能体模型,专门用于自动化 GUI 交互,包括桌面、浏览器和手机操作。 ## 核心能力 | 能力 | 表现 | |------|------| | 桌面自动化 | OSWorld 基准 42.5%(超越 OpenAI CUA 36.4%) | | 浏览器操作 | WebVoyager 84.8%,Online-Mind2web 75.8% | | 手机控制 | Android World 64.2% | | 游戏任务 | Poki 游戏 100% 通关率 | | GUI 定位 | ScreenSpotPro 61.6%(远超 Claude 3.7 的 27.7%) | ## 模型版本 - **UI-TARS-2** (最新) - All-in-One 智能体,支持 GUI/游戏/代码/工具调用 - **UI-TARS-1.5-7B** - 开源版本,专注通用计算机使用 ## 使用方式 支持 HuggingFace 部署,提供桌面版 UI-TARS-desktop 和 Web 自动化 Midscene.js 集成。 ## 技术特点 - 基于 Qwen2.5-VL 架构 - 强化学习增强推理能力 - 支持绝对坐标定位 - 推理时扩展(Inference-time scaling) 字节跳动出品,MIT 协议开源。 --- **分类**:源码 **标签**:自动化 · UI · 字节 **作者**:Xiao.Xi **链接**:https://octohz.com/p/1473