Midscene.js - 视觉驱动 UI 自动化

Midscene.js - 视觉驱动 UI 自动化


字节开源视觉驱动 UI 自动化框架,支持 Web/桌面/移动端,自然语言控制

介绍

Midscene.js 是一个 AI 驱动的视觉 UI 自动化框架,通过自然语言控制浏览器和应用程序,无需依赖 DOM 或 accessibility labels。

核心特点

特性说明
🔍 纯视觉驱动基于截图识别 UI 元素,无需 DOM 或 accessibility labels
🌐 跨平台支持 Web、PC、移动端(Android/iOS/HarmonyOS)
🗣️ 自然语言用自然语言描述操作,如 点击登录按钮
🤖 多模型支持支持多种视觉模型组合,可使用开源模型
📊 高精度视觉模型提升操作精度,多模型提高完成率

使用方式

集成场景

  • Web 自动化测试
  • 桌面应用自动化
  • 移动端 UI 测试
  • RPA 流程自动化

GitHub 12K+ Stars,曾登 GitHub Trending #2。

字节跳动 Web Infra 团队开源。

1700举报0Xiao.Xi15天前
点击获取 ^_^
被收录:

暂无评论