
比 Ollama 快 4.2 倍,17 种工具调用解析器,0.08 秒首字延迟,完整兼容 OpenAI API
Rapid-MLX 是专为 Apple Silicon(M1/M2/M3/M4)打造的本地 AI 推理引擎,基于 Apple MLX 框架构建,在 Mac 上运行速度比 Ollama 快 2–4.2 倍,多轮对话缓存后首字延迟(TTFT)低至 0.08 秒。
核心特性
- 极速推理:利用 Metal 原生计算内核,统一内存架构下无需数据搬运,速度全面领先 C++ 引擎
- 17 种工具调用解析器:覆盖 Qwen、DeepSeek、GLM、Gemma、Llama、Mistral、GPT-OSS、Kimi、MiniMax 等主流模型家族,自动检测并修复量化模型输出的破碎工具调用
- 完整 OpenAI API 兼容:即开即用,Cursor、Claude Code、Aider、Goose、Continue.dev、Open WebUI 等直接接入
- Prompt Cache:标准 Transformer 用 KV Cache 修剪,DeltaNet 混合架构用 RNN 状态快照,多轮对话 TTFT 提升 2–5 倍
- 推理分离:Qwen3 / DeepSeek-R1 等模型的思维链内容单独输出到
reasoning_content,不污染正式回复 - 智能云路由:大上下文请求自动回落云端(GPT-5 / Claude 等),本地与云端无缝切换
- 多模态:支持视觉(VLM)、语音(STT/TTS)、文本嵌入、结构化 JSON 输出
性能对比(Mac Studio M3 Ultra)
| 模型 | Rapid-MLX | 对比方案 | 加速比 |
|---|---|---|---|
| Phi-4 Mini 14B | 180 tok/s | Ollama 56 tok/s | 3.2× |
| Qwen3.5-9B | 108 tok/s | Ollama 41 tok/s | 2.6× |
| Nemotron-Nano 30B | 141 tok/s · 100% 工具调用 | — | — |
| DeepSeek V4 Flash 158B | 31–56 tok/s | 仅 MLX 引擎支持 | Day-0 |
按内存选模型
| 你的 Mac | 推荐模型 | 显存占用 | 速度 |
|---|---|---|---|
| 16 GB | Qwen3.5-4B | 2.4 GB | 160 tok/s |
| 24 GB | Qwen3.5-9B | 5.1 GB | 108 tok/s |
| 32 GB | Nemotron-Nano 30B | 18 GB | 141 tok/s |
| 48 GB | Qwen3.5-35B 8bit | 37 GB | 83 tok/s |
| 96 GB | Qwen3.5-122B | 65 GB | 57 tok/s |
| 128 GB | DeepSeek V4 Flash 158B | 91 GB | 56 tok/s |
兼容生态
Agent / IDE:Cursor、Claude Code、Aider、Goose、OpenCode、Continue.dev、Open WebUI、LibreChat
框架:PydanticAI、LangChain、smolagents、Hermes Agent、Anthropic SDK
接入方式:修改 API Base URL 为 http://localhost:8000/v1 即可,无需额外适配
快速开始
# Homebrew(推荐)
brew install raullenchai/rapid-mlx/rapid-mlx
# 或 pip
pip install rapid-mlx
# 启动服务
rapid-mlx serve qwen3.5-4b
# 测试
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"default","messages":[{"role":"user","content":"hello"}]}'
适用人群
- 不想付 API 费、希望把 AI 完全放在本地运行的 Mac 用户
- 需要工具调用(Tool Calling)配合 Cursor / Claude Code 做编码助手的开发者
- 追求低延迟、高吞吐本地推理的 Apple Silicon 用户
暂无评论
