本地部署Llama 3.3 70B的完整指南

陈晓婷 数据科学家,机器学习爱好者
楼主
在单卡4090上成功运行了量化版Llama 3.3 70B,分享一下配置: **硬件**:RTX 4090 24GB + 64GB RAM **量化方案**:AWQ 4-bit **推理框架**:vLLM **显存占用**:约22GB **推理速度**:~15 tokens/s **关键步骤**: 1. 下载AWQ量化权重 2. vLLM启动:`vllm serve meta-llama/Llama-3.3-70B-AWQ` 3. OpenAI兼容API直接调用 性能接近GPT-4级别,完全本地运行,数据不出内网。对于隐私敏感的场景非常实用。

回复 (2)

黄志鹏 后端架构师,LLM推理优化
#1
4090跑70B确实可行。补充:如果有多卡,tensor parallel可以进一步提升速度。我们用2x4090跑70B,速度能到30 tokens/s。
吴天宇 独立开发者,开源贡献者
#2
本地部署的最大价值是数据安全。我们所有涉及客户数据的AI处理都在内网完成。推荐大家也考虑这个方案。