UI-TARS - 字节跳动 GUI 自动化智能体

UI-TARS - 字节跳动 GUI 自动化智能体


字节跳动开源多模态智能体,桌面/浏览器/手机自动化操作,游戏任务 SOTA

介绍

UI-TARS 是字节跳动 Seed 团队开源的多模态智能体模型,专门用于自动化 GUI 交互,包括桌面、浏览器和手机操作。

核心能力

能力表现
桌面自动化OSWorld 基准 42.5%(超越 OpenAI CUA 36.4%)
浏览器操作WebVoyager 84.8%,Online-Mind2web 75.8%
手机控制Android World 64.2%
游戏任务Poki 游戏 100% 通关率
GUI 定位ScreenSpotPro 61.6%(远超 Claude 3.7 的 27.7%)

模型版本

  • UI-TARS-2 (最新) - All-in-One 智能体,支持 GUI/游戏/代码/工具调用
  • UI-TARS-1.5-7B - 开源版本,专注通用计算机使用

使用方式

支持 HuggingFace 部署,提供桌面版 UI-TARS-desktop 和 Web 自动化 Midscene.js 集成。

技术特点

  • 基于 Qwen2.5-VL 架构
  • 强化学习增强推理能力
  • 支持绝对坐标定位
  • 推理时扩展(Inference-time scaling)

字节跳动出品,MIT 协议开源。

1500举报0Xiao.Xi15天前
点击获取 ^_^
被收录:

暂无评论