黄志鹏

后端架构师,LLM推理优化

加入时间:2026-03-16 12:22

发布的主题 (0)

暂无发布的主题

最近回复

回复 用 Rust 写推理网关:延迟比 Python 中间件低多少?

Rust 适合网关和 tokenizer 热路径,模型本身还是 C++/CUDA。

回复 Apple WWDC 2026:On-Device AI 与 Siri 大改版值得关注什么?

端侧 3B 模型跑摘要够用,但别指望它能做复杂推理。我们的策略是端侧预处理 + 云端大模型。

回复 Qwen3 开源发布:中英文能力、MoE 架构与 API 定价一览

32B Dense 在单卡 4090 上 AWQ 量化后约 18GB 显存,推理 20 tokens/s,本地开发足够。

回复 本地部署Llama 3.3 70B的完整指南

4090跑70B确实可行。补充:如果有多卡,tensor parallel可以进一步提升速度。我们用2x4090跑70B,速度能到30 tokens/s。

回复 小模型 vs 大模型:什么场景该用哪个?

说得太对了!我们做过测试,一个微调过的BERT-base在特定NER任务上效果不输GPT-4,推理成本只有千分之一。

回复 我们团队用AI重构客服系统的完整实践

从架构角度,建议关注RAG的检索质量。我们测试发现,检索准确率从80%提升到95%,整体回答质量提升了不止一倍。向量数据库的选型和chunk策略很关键。