标签「GPU」共 2 条内容
AirLLM - 单卡4GB GPU跑70B大模型推理的内存优化框架
无需量化/蒸馏/剪枝,在单张4GB GPU上运行70B大模型推理,支持Llama3.1 405B仅8GB VRAM
19000Xiao.XiXiao.Xi11天前
点击获取 ^_^
VibeVoice 社区版 - PyTorch/CUDA 多 GPU 推理完整代码
微软删除官方 TTS 推理代码后,社区 fork 保留的 PyTorch 完整实现。支持单卡/多卡推理、语音克隆、Gradio Demo。
33000Xiao.XiXiao.Xi16天前
点击获取 ^_^