AirLLM - 单卡4GB GPU跑70B大模型推理的内存优化框架

AirLLM - 单卡4GB GPU跑70B大模型推理的内存优化框架


无需量化/蒸馏/剪枝,在单张4GB GPU上运行70B大模型推理,支持Llama3.1 405B仅8GB VRAM

项目简介

AirLLM 是一个专注于大语言模型推理内存优化的开源 Python 库,允许 70B 参数模型在单张 4GB GPU 上完成推理,且无需任何量化、蒸馏或剪枝操作。

核心功能

模块说明
层间计算优化通过分层加载与计算重叠,将模型内存占用降至极低
多模型支持原生支持 Llama、Qwen、Mixtral、ChatGLM、Baichuan、Mistral 等
量化选项额外支持 8bit/4bit 量化,进一步压缩显存
CPU 推理支持无 GPU 环境下的纯 CPU 推理
自动模型检测AutoModel 自动识别模型类型,无需手动指定

技术栈

技术说明
PyTorch底层推理引擎
Transformers (Hugging Face)模型加载与 Tokenizer
Jupyter Notebook提供多个即开即用的示例 Notebook

适用场景

  • 消费级显卡用户想体验 70B+ 大模型
  • 在资源受限服务器上部署大模型推理服务
  • 需要快速验证大模型能力而不购买高端 GPU

Stars

17,085 Stars,Python (Jupyter Notebook),Apache 2.0 License

1800举报0Xiao.Xi11天前
点击获取 ^_^
被收录:

暂无评论