# Rapid-MLX - 专为 Apple Silicon 打造的极速本地 AI 引擎

> 比 Ollama 快 4.2 倍，17 种工具调用解析器，0.08 秒首字延迟，完整兼容 OpenAI API

Rapid-MLX 是专为 Apple Silicon（M1/M2/M3/M4）打造的本地 AI 推理引擎，基于 Apple MLX 框架构建，在 Mac 上运行速度比 Ollama 快 2–4.2 倍，多轮对话缓存后首字延迟（TTFT）低至 0.08 秒。

## 核心特性

- **极速推理**：利用 Metal 原生计算内核，统一内存架构下无需数据搬运，速度全面领先 C++ 引擎
- **17 种工具调用解析器**：覆盖 Qwen、DeepSeek、GLM、Gemma、Llama、Mistral、GPT-OSS、Kimi、MiniMax 等主流模型家族，自动检测并修复量化模型输出的破碎工具调用
- **完整 OpenAI API 兼容**：即开即用，Cursor、Claude Code、Aider、Goose、Continue.dev、Open WebUI 等直接接入
- **Prompt Cache**：标准 Transformer 用 KV Cache 修剪，DeltaNet 混合架构用 RNN 状态快照，多轮对话 TTFT 提升 2–5 倍
- **推理分离**：Qwen3 / DeepSeek-R1 等模型的思维链内容单独输出到 `reasoning_content`，不污染正式回复
- **智能云路由**：大上下文请求自动回落云端（GPT-5 / Claude 等），本地与云端无缝切换
- **多模态**：支持视觉（VLM）、语音（STT/TTS）、文本嵌入、结构化 JSON 输出

## 性能对比（Mac Studio M3 Ultra）

| 模型 | Rapid-MLX | 对比方案 | 加速比 |
|------|----------|---------|-------|
| Phi-4 Mini 14B | **180** tok/s | Ollama 56 tok/s | **3.2×** |
| Qwen3.5-9B | **108** tok/s | Ollama 41 tok/s | **2.6×** |
| Nemotron-Nano 30B | **141** tok/s · 100% 工具调用 | — | — |
| DeepSeek V4 Flash 158B | **31–56** tok/s | 仅 MLX 引擎支持 | Day-0 |

## 按内存选模型

| 你的 Mac | 推荐模型 | 显存占用 | 速度 |
|----------|---------|---------|------|
| 16 GB | Qwen3.5-4B | 2.4 GB | 160 tok/s |
| 24 GB | Qwen3.5-9B | 5.1 GB | 108 tok/s |
| 32 GB | Nemotron-Nano 30B | 18 GB | 141 tok/s |
| 48 GB | Qwen3.5-35B 8bit | 37 GB | 83 tok/s |
| 96 GB | Qwen3.5-122B | 65 GB | 57 tok/s |
| 128 GB | DeepSeek V4 Flash 158B | 91 GB | 56 tok/s |

## 兼容生态

**Agent / IDE**：Cursor、Claude Code、Aider、Goose、OpenCode、Continue.dev、Open WebUI、LibreChat
**框架**：PydanticAI、LangChain、smolagents、Hermes Agent、Anthropic SDK
**接入方式**：修改 API Base URL 为 `http://localhost:8000/v1` 即可，无需额外适配

## 快速开始

```bash
# Homebrew（推荐）
brew install raullenchai/rapid-mlx/rapid-mlx

# 或 pip
pip install rapid-mlx

# 启动服务
rapid-mlx serve qwen3.5-4b

# 测试
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","messages":[{"role":"user","content":"hello"}]}'
```

## 适用人群

- 不想付 API 费、希望把 AI 完全放在本地运行的 Mac 用户
- 需要工具调用（Tool Calling）配合 Cursor / Claude Code 做编码助手的开发者
- 追求低延迟、高吞吐本地推理的 Apple Silicon 用户

---

**分类**：软件
**标签**：模型 · tok · GB
**作者**：Xiao.Xi
**链接**：https://octohz.com/p/1665