# Rapid-MLX - 专为 Apple Silicon 打造的极速本地 AI 引擎 > 比 Ollama 快 4.2 倍,17 种工具调用解析器,0.08 秒首字延迟,完整兼容 OpenAI API Rapid-MLX 是专为 Apple Silicon(M1/M2/M3/M4)打造的本地 AI 推理引擎,基于 Apple MLX 框架构建,在 Mac 上运行速度比 Ollama 快 2–4.2 倍,多轮对话缓存后首字延迟(TTFT)低至 0.08 秒。 ## 核心特性 - **极速推理**:利用 Metal 原生计算内核,统一内存架构下无需数据搬运,速度全面领先 C++ 引擎 - **17 种工具调用解析器**:覆盖 Qwen、DeepSeek、GLM、Gemma、Llama、Mistral、GPT-OSS、Kimi、MiniMax 等主流模型家族,自动检测并修复量化模型输出的破碎工具调用 - **完整 OpenAI API 兼容**:即开即用,Cursor、Claude Code、Aider、Goose、Continue.dev、Open WebUI 等直接接入 - **Prompt Cache**:标准 Transformer 用 KV Cache 修剪,DeltaNet 混合架构用 RNN 状态快照,多轮对话 TTFT 提升 2–5 倍 - **推理分离**:Qwen3 / DeepSeek-R1 等模型的思维链内容单独输出到 `reasoning_content`,不污染正式回复 - **智能云路由**:大上下文请求自动回落云端(GPT-5 / Claude 等),本地与云端无缝切换 - **多模态**:支持视觉(VLM)、语音(STT/TTS)、文本嵌入、结构化 JSON 输出 ## 性能对比(Mac Studio M3 Ultra) | 模型 | Rapid-MLX | 对比方案 | 加速比 | |------|----------|---------|-------| | Phi-4 Mini 14B | **180** tok/s | Ollama 56 tok/s | **3.2×** | | Qwen3.5-9B | **108** tok/s | Ollama 41 tok/s | **2.6×** | | Nemotron-Nano 30B | **141** tok/s · 100% 工具调用 | — | — | | DeepSeek V4 Flash 158B | **31–56** tok/s | 仅 MLX 引擎支持 | Day-0 | ## 按内存选模型 | 你的 Mac | 推荐模型 | 显存占用 | 速度 | |----------|---------|---------|------| | 16 GB | Qwen3.5-4B | 2.4 GB | 160 tok/s | | 24 GB | Qwen3.5-9B | 5.1 GB | 108 tok/s | | 32 GB | Nemotron-Nano 30B | 18 GB | 141 tok/s | | 48 GB | Qwen3.5-35B 8bit | 37 GB | 83 tok/s | | 96 GB | Qwen3.5-122B | 65 GB | 57 tok/s | | 128 GB | DeepSeek V4 Flash 158B | 91 GB | 56 tok/s | ## 兼容生态 **Agent / IDE**:Cursor、Claude Code、Aider、Goose、OpenCode、Continue.dev、Open WebUI、LibreChat **框架**:PydanticAI、LangChain、smolagents、Hermes Agent、Anthropic SDK **接入方式**:修改 API Base URL 为 `http://localhost:8000/v1` 即可,无需额外适配 ## 快速开始 ```bash # Homebrew(推荐) brew install raullenchai/rapid-mlx/rapid-mlx # 或 pip pip install rapid-mlx # 启动服务 rapid-mlx serve qwen3.5-4b # 测试 curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{"model":"default","messages":[{"role":"user","content":"hello"}]}' ``` ## 适用人群 - 不想付 API 费、希望把 AI 完全放在本地运行的 Mac 用户 - 需要工具调用(Tool Calling)配合 Cursor / Claude Code 做编码助手的开发者 - 追求低延迟、高吞吐本地推理的 Apple Silicon 用户 --- **分类**:软件 **标签**:模型 · tok · GB **作者**:Xiao.Xi **链接**:https://octohz.com/p/1665