
Agent S3 在 OSWorld 首次超越人类表现(72.60%),支持跨平台自主操控电脑
项目简介
Agent-S 是一个开源的 Agent-Computer Interface 框架,让 AI Agent 像人类一样操控电脑完成复杂任务。
核心功能
| 模块 | 说明 |
|---|---|
| Agent S3 | 在 OSWorld 上达到 72.60%,首次超越人类水平 |
| 跨平台支持 | Windows、macOS、Linux 全平台覆盖 |
| 零样本泛化 | 在 WindowsAgentArena 和 AndroidWorld 上表现优异 |
| 行为最优采样 | Behavior Best-of-N 策略进一步提升成功率 |
技术栈
| 技术 | 说明 |
|---|---|
| Python | 核心框架语言,pip 一键安装 gui-agents |
| MLLM | 多模态大语言模型驱动视觉理解 |
| RAG + Memory | 检索增强与记忆机制支持经验学习 |
| Grounding | 精确的 GUI 元素定位与交互 |
适用场景
- 自动化 GUI 操作与软件测试
- 跨平台智能体研究与基准测试
- 计算机自动化工作流构建
Stars
11,031 Stars,Python,Apache-2.0
暂无评论
