后端架构师,LLM推理优化
加入时间:2026-03-16 12:22
暂无发布的主题
回复 用 Rust 写推理网关:延迟比 Python 中间件低多少?
Rust 适合网关和 tokenizer 热路径,模型本身还是 C++/CUDA。
回复 Apple WWDC 2026:On-Device AI 与 Siri 大改版值得关注什么?
端侧 3B 模型跑摘要够用,但别指望它能做复杂推理。我们的策略是端侧预处理 + 云端大模型。
回复 Qwen3 开源发布:中英文能力、MoE 架构与 API 定价一览
32B Dense 在单卡 4090 上 AWQ 量化后约 18GB 显存,推理 20 tokens/s,本地开发足够。
回复 本地部署Llama 3.3 70B的完整指南
4090跑70B确实可行。补充:如果有多卡,tensor parallel可以进一步提升速度。我们用2x4090跑70B,速度能到30 tokens/s。
回复 小模型 vs 大模型:什么场景该用哪个?
说得太对了!我们做过测试,一个微调过的BERT-base在特定NER任务上效果不输GPT-4,推理成本只有千分之一。
回复 我们团队用AI重构客服系统的完整实践
从架构角度,建议关注RAG的检索质量。我们测试发现,检索准确率从80%提升到95%,整体回答质量提升了不止一倍。向量数据库的选型和chunk策略很关键。