# Midscene.js - 视觉驱动 UI 自动化 > 字节开源视觉驱动 UI 自动化框架,支持 Web/桌面/移动端,自然语言控制 ## 介绍 Midscene.js 是一个 AI 驱动的视觉 UI 自动化框架,通过自然语言控制浏览器和应用程序,无需依赖 DOM 或 accessibility labels。 ## 核心特点 | 特性 | 说明 | |------|------| | 🔍 纯视觉驱动 | 基于截图识别 UI 元素,无需 DOM 或 accessibility labels | | 🌐 跨平台 | 支持 Web、PC、移动端(Android/iOS/HarmonyOS) | | 🗣️ 自然语言 | 用自然语言描述操作,如 点击登录按钮 | | 🤖 多模型支持 | 支持多种视觉模型组合,可使用开源模型 | | 📊 高精度 | 视觉模型提升操作精度,多模型提高完成率 | ## 使用方式 ## 集成场景 - Web 自动化测试 - 桌面应用自动化 - 移动端 UI 测试 - RPA 流程自动化 GitHub 12K+ Stars,曾登 GitHub Trending #2。 字节跳动 Web Infra 团队开源。 --- **分类**:源码 **标签**:自动化 · UI · 视觉 **作者**:Xiao.Xi **链接**:https://octohz.com/p/1478