
Midscene.js - 视觉驱动 UI 自动化
字节开源视觉驱动 UI 自动化框架,支持 Web/桌面/移动端,自然语言控制
介绍
Midscene.js 是一个 AI 驱动的视觉 UI 自动化框架,通过自然语言控制浏览器和应用程序,无需依赖 DOM 或 accessibility labels。
核心特点
| 特性 | 说明 |
|---|---|
| 🔍 纯视觉驱动 | 基于截图识别 UI 元素,无需 DOM 或 accessibility labels |
| 🌐 跨平台 | 支持 Web、PC、移动端(Android/iOS/HarmonyOS) |
| 🗣️ 自然语言 | 用自然语言描述操作,如 点击登录按钮 |
| 🤖 多模型支持 | 支持多种视觉模型组合,可使用开源模型 |
| 📊 高精度 | 视觉模型提升操作精度,多模型提高完成率 |
使用方式
集成场景
- Web 自动化测试
- 桌面应用自动化
- 移动端 UI 测试
- RPA 流程自动化
GitHub 12K+ Stars,曾登 GitHub Trending #2。
字节跳动 Web Infra 团队开源。
暂无评论
