
无需量化/蒸馏/剪枝,在单张4GB GPU上运行70B大模型推理,支持Llama3.1 405B仅8GB VRAM
项目简介
AirLLM 是一个专注于大语言模型推理内存优化的开源 Python 库,允许 70B 参数模型在单张 4GB GPU 上完成推理,且无需任何量化、蒸馏或剪枝操作。
核心功能
| 模块 | 说明 |
|---|---|
| 层间计算优化 | 通过分层加载与计算重叠,将模型内存占用降至极低 |
| 多模型支持 | 原生支持 Llama、Qwen、Mixtral、ChatGLM、Baichuan、Mistral 等 |
| 量化选项 | 额外支持 8bit/4bit 量化,进一步压缩显存 |
| CPU 推理 | 支持无 GPU 环境下的纯 CPU 推理 |
| 自动模型检测 | AutoModel 自动识别模型类型,无需手动指定 |
技术栈
| 技术 | 说明 |
|---|---|
| PyTorch | 底层推理引擎 |
| Transformers (Hugging Face) | 模型加载与 Tokenizer |
| Jupyter Notebook | 提供多个即开即用的示例 Notebook |
适用场景
- 消费级显卡用户想体验 70B+ 大模型
- 在资源受限服务器上部署大模型推理服务
- 需要快速验证大模型能力而不购买高端 GPU
Stars
17,085 Stars,Python (Jupyter Notebook),Apache 2.0 License
暂无评论
