Rapid-MLX - 专为 Apple Silicon 打造的极速本地 AI 引擎

Rapid-MLX - 专为 Apple Silicon 打造的极速本地 AI 引擎


比 Ollama 快 4.2 倍,17 种工具调用解析器,0.08 秒首字延迟,完整兼容 OpenAI API

Rapid-MLX 是专为 Apple Silicon(M1/M2/M3/M4)打造的本地 AI 推理引擎,基于 Apple MLX 框架构建,在 Mac 上运行速度比 Ollama 快 2–4.2 倍,多轮对话缓存后首字延迟(TTFT)低至 0.08 秒。

核心特性

  • 极速推理:利用 Metal 原生计算内核,统一内存架构下无需数据搬运,速度全面领先 C++ 引擎
  • 17 种工具调用解析器:覆盖 Qwen、DeepSeek、GLM、Gemma、Llama、Mistral、GPT-OSS、Kimi、MiniMax 等主流模型家族,自动检测并修复量化模型输出的破碎工具调用
  • 完整 OpenAI API 兼容:即开即用,Cursor、Claude Code、Aider、Goose、Continue.dev、Open WebUI 等直接接入
  • Prompt Cache:标准 Transformer 用 KV Cache 修剪,DeltaNet 混合架构用 RNN 状态快照,多轮对话 TTFT 提升 2–5 倍
  • 推理分离:Qwen3 / DeepSeek-R1 等模型的思维链内容单独输出到 reasoning_content,不污染正式回复
  • 智能云路由:大上下文请求自动回落云端(GPT-5 / Claude 等),本地与云端无缝切换
  • 多模态:支持视觉(VLM)、语音(STT/TTS)、文本嵌入、结构化 JSON 输出

性能对比(Mac Studio M3 Ultra)

模型Rapid-MLX对比方案加速比
Phi-4 Mini 14B180 tok/sOllama 56 tok/s3.2×
Qwen3.5-9B108 tok/sOllama 41 tok/s2.6×
Nemotron-Nano 30B141 tok/s · 100% 工具调用
DeepSeek V4 Flash 158B31–56 tok/s仅 MLX 引擎支持Day-0

按内存选模型

你的 Mac推荐模型显存占用速度
16 GBQwen3.5-4B2.4 GB160 tok/s
24 GBQwen3.5-9B5.1 GB108 tok/s
32 GBNemotron-Nano 30B18 GB141 tok/s
48 GBQwen3.5-35B 8bit37 GB83 tok/s
96 GBQwen3.5-122B65 GB57 tok/s
128 GBDeepSeek V4 Flash 158B91 GB56 tok/s

兼容生态

Agent / IDE:Cursor、Claude Code、Aider、Goose、OpenCode、Continue.dev、Open WebUI、LibreChat 框架:PydanticAI、LangChain、smolagents、Hermes Agent、Anthropic SDK 接入方式:修改 API Base URL 为 http://localhost:8000/v1 即可,无需额外适配

快速开始

# Homebrew(推荐)
brew install raullenchai/rapid-mlx/rapid-mlx

# 或 pip
pip install rapid-mlx

# 启动服务
rapid-mlx serve qwen3.5-4b

# 测试
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","messages":[{"role":"user","content":"hello"}]}'

适用人群

  • 不想付 API 费、希望把 AI 完全放在本地运行的 Mac 用户
  • 需要工具调用(Tool Calling)配合 Cursor / Claude Code 做编码助手的开发者
  • 追求低延迟、高吞吐本地推理的 Apple Silicon 用户
1000举报0Xiao.Xi5天前
点击获取 ^_^
被收录:

暂无评论