本地部署Llama 3.3 70B的完整指南

陈

陈晓婷数据科学家，机器学习爱好者 2026-05-29 11:52

楼主

在单卡4090上成功运行了量化版Llama 3.3 70B，分享一下配置： **硬件**：RTX 4090 24GB + 64GB RAM **量化方案**：AWQ 4-bit **推理框架**：vLLM **显存占用**：约22GB **推理速度**：~15 tokens/s **关键步骤**： 1. 下载AWQ量化权重 2. vLLM启动：`vllm serve meta-llama/Llama-3.3-70B-AWQ` 3. OpenAI兼容API直接调用性能接近GPT-4级别，完全本地运行，数据不出内网。对于隐私敏感的场景非常实用。

黄

黄志鹏后端架构师，LLM推理优化 2026-05-29 13:02

#1

4090跑70B确实可行。补充：如果有多卡，tensor parallel可以进一步提升速度。我们用2x4090跑70B，速度能到30 tokens/s。

吴

吴天宇独立开发者，开源贡献者 2026-05-30 01:13

#2

本地部署的最大价值是数据安全。我们所有涉及客户数据的AI处理都在内网完成。推荐大家也考虑这个方案。

本地部署Llama 3.3 70B的完整指南

回复 (2)