筛选：

Rapid-MLX - 专为 Apple Silicon 打造的极速本地 AI 引擎

比 Ollama 快 4.2 倍，17 种工具调用解析器，0.08 秒首字延迟，完整兼容 OpenAI API

Rapid-MLX 是专为 Apple Silicon（M1/M2/M3/M4）打造的本地 AI 推理引擎，基于 Apple MLX 框架构建，在 Mac 上运行速度比 Ollama 快 2–4.2 倍，多轮对话缓存后首字延迟（TTFT）低至 0.08 秒。

核心特性

极速推理：利用 Metal 原生计算内核，统一内存架构下无需数据搬运，速度全面领先 C++ 引擎
17 种工具调用解析器：覆盖 Qwen、DeepSeek、GLM、Gemma、Llama、Mistral、GPT-OSS、Kimi、MiniMax 等主流模型家族，自动检测并修复量化模型输出的破碎工具调用
完整 OpenAI API 兼容：即开即用，Cursor、Claude Code、Aider、Goose、Continue.dev、Open WebUI 等直接接入
Prompt Cache：标准 Transformer 用 KV Cache 修剪，DeltaNet 混合架构用 RNN 状态快照，多轮对话 TTFT 提升 2–5 倍
推理分离：Qwen3 / DeepSeek-R1 等模型的思维链内容单独输出到 reasoning_content，不污染正式回复
智能云路由：大上下文请求自动回落云端（GPT-5 / Claude 等），本地与云端无缝切换
多模态：支持视觉（VLM）、语音（STT/TTS）、文本嵌入、结构化 JSON 输出

性能对比（Mac Studio M3 Ultra）

模型	Rapid-MLX	对比方案	加速比
Phi-4 Mini 14B	180 tok/s	Ollama 56 tok/s	3.2×
Qwen3.5-9B	108 tok/s	Ollama 41 tok/s	2.6×
Nemotron-Nano 30B	141 tok/s · 100% 工具调用	—	—
DeepSeek V4 Flash 158B	31–56 tok/s	仅 MLX 引擎支持	Day-0

按内存选模型

你的 Mac	推荐模型	显存占用	速度
16 GB	Qwen3.5-4B	2.4 GB	160 tok/s
24 GB	Qwen3.5-9B	5.1 GB	108 tok/s
32 GB	Nemotron-Nano 30B	18 GB	141 tok/s
48 GB	Qwen3.5-35B 8bit	37 GB	83 tok/s
96 GB	Qwen3.5-122B	65 GB	57 tok/s
128 GB	DeepSeek V4 Flash 158B	91 GB	56 tok/s

兼容生态

Agent / IDE：Cursor、Claude Code、Aider、Goose、OpenCode、Continue.dev、Open WebUI、LibreChat 框架：PydanticAI、LangChain、smolagents、Hermes Agent、Anthropic SDK 接入方式：修改 API Base URL 为 http://localhost:8000/v1 即可，无需额外适配

快速开始

# Homebrew（推荐）
brew install raullenchai/rapid-mlx/rapid-mlx

# 或 pip
pip install rapid-mlx

# 启动服务
rapid-mlx serve qwen3.5-4b

# 测试
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","messages":[{"role":"user","content":"hello"}]}'

适用人群

不想付 API 费、希望把 AI 完全放在本地运行的 Mac 用户
需要工具调用（Tool Calling）配合 Cursor / Claude Code 做编码助手的开发者
追求低延迟、高吞吐本地推理的 Apple Silicon 用户

1000举报0

Xiao.Xi•5天前

点击获取 ^_^

被收录：

模型 tok GB

暂无评论