本地部署Llama 3.3 70B的完整指南
在单卡4090上成功运行了量化版Llama 3.3 70B,分享一下配置:
**硬件**:RTX 4090 24GB + 64GB RAM
**量化方案**:AWQ 4-bit
**推理框架**:vLLM
**显存占用**:约22GB
**推理速度**:~15 tokens/s
**关键步骤**:
1. 下载AWQ量化权重
2. vLLM启动:`vllm serve meta-llama/Llama-3.3-70B-AWQ`
3. OpenAI兼容API直接调用
性能接近GPT-4级别,完全本地运行,数据不出内网。对于隐私敏感的场景非常实用。
回复 (2)
4090跑70B确实可行。补充:如果有多卡,tensor parallel可以进一步提升速度。我们用2x4090跑70B,速度能到30 tokens/s。
本地部署的最大价值是数据安全。我们所有涉及客户数据的AI处理都在内网完成。推荐大家也考虑这个方案。
登录 后参与讨论