筛选：

AirLLM - 单卡4GB GPU跑70B大模型推理的内存优化框架

无需量化/蒸馏/剪枝，在单张4GB GPU上运行70B大模型推理，支持Llama3.1 405B仅8GB VRAM

项目简介

AirLLM 是一个专注于大语言模型推理内存优化的开源 Python 库，允许 70B 参数模型在单张 4GB GPU 上完成推理，且无需任何量化、蒸馏或剪枝操作。

模块	说明
层间计算优化	通过分层加载与计算重叠，将模型内存占用降至极低
多模型支持	原生支持 Llama、Qwen、Mixtral、ChatGLM、Baichuan、Mistral 等
量化选项	额外支持 8bit/4bit 量化，进一步压缩显存
CPU 推理	支持无 GPU 环境下的纯 CPU 推理
自动模型检测	AutoModel 自动识别模型类型，无需手动指定

17,085 Stars，Python (Jupyter Notebook)，Apache 2.0 License

1800举报0

Xiao.Xi•11天前

被收录：

暂无评论