# AirLLM - 单卡4GB GPU跑70B大模型推理的内存优化框架 > 无需量化/蒸馏/剪枝,在单张4GB GPU上运行70B大模型推理,支持Llama3.1 405B仅8GB VRAM ## 项目简介 AirLLM 是一个专注于大语言模型推理内存优化的开源 Python 库,允许 70B 参数模型在单张 4GB GPU 上完成推理,且无需任何量化、蒸馏或剪枝操作。 ## 核心功能 | 模块 | 说明 | |------|------| | 层间计算优化 | 通过分层加载与计算重叠,将模型内存占用降至极低 | | 多模型支持 | 原生支持 Llama、Qwen、Mixtral、ChatGLM、Baichuan、Mistral 等 | | 量化选项 | 额外支持 8bit/4bit 量化,进一步压缩显存 | | CPU 推理 | 支持无 GPU 环境下的纯 CPU 推理 | | 自动模型检测 | AutoModel 自动识别模型类型,无需手动指定 | ## 技术栈 | 技术 | 说明 | |------|------| | PyTorch | 底层推理引擎 | | Transformers (Hugging Face) | 模型加载与 Tokenizer | | Jupyter Notebook | 提供多个即开即用的示例 Notebook | ## 适用场景 - 消费级显卡用户想体验 70B+ 大模型 - 在资源受限服务器上部署大模型推理服务 - 需要快速验证大模型能力而不购买高端 GPU ## Stars 17,085 Stars,Python (Jupyter Notebook),Apache 2.0 License --- **分类**:源码 **标签**:模型 · 推理 · GPU **作者**:Xiao.Xi **链接**:https://octohz.com/p/1613