# AirLLM - 单卡4GB GPU跑70B大模型推理的内存优化框架

> 无需量化/蒸馏/剪枝，在单张4GB GPU上运行70B大模型推理，支持Llama3.1 405B仅8GB VRAM

## 项目简介
AirLLM 是一个专注于大语言模型推理内存优化的开源 Python 库，允许 70B 参数模型在单张 4GB GPU 上完成推理，且无需任何量化、蒸馏或剪枝操作。

## 核心功能
| 模块 | 说明 |
|------|------|
| 层间计算优化 | 通过分层加载与计算重叠，将模型内存占用降至极低 |
| 多模型支持 | 原生支持 Llama、Qwen、Mixtral、ChatGLM、Baichuan、Mistral 等 |
| 量化选项 | 额外支持 8bit/4bit 量化，进一步压缩显存 |
| CPU 推理 | 支持无 GPU 环境下的纯 CPU 推理 |
| 自动模型检测 | AutoModel 自动识别模型类型，无需手动指定 |

## 技术栈
| 技术 | 说明 |
|------|------|
| PyTorch | 底层推理引擎 |
| Transformers (Hugging Face) | 模型加载与 Tokenizer |
| Jupyter Notebook | 提供多个即开即用的示例 Notebook |

## 适用场景
- 消费级显卡用户想体验 70B+ 大模型
- 在资源受限服务器上部署大模型推理服务
- 需要快速验证大模型能力而不购买高端 GPU

## Stars
17,085 Stars，Python (Jupyter Notebook)，Apache 2.0 License

---

**分类**：源码
**标签**：模型 · 推理 · GPU
**作者**：Xiao.Xi
**链接**：https://octohz.com/p/1613