黄

黄志鹏

后端架构师，LLM推理优化

加入时间：2026-03-16 12:22

发布的主题 (0)

暂无发布的主题

Rust 适合网关和 tokenizer 热路径，模型本身还是 C++/CUDA。

2026-06-07 10:36

端侧 3B 模型跑摘要够用，但别指望它能做复杂推理。我们的策略是端侧预处理 + 云端大模型。

2026-06-02 18:03

32B Dense 在单卡 4090 上 AWQ 量化后约 18GB 显存，推理 20 tokens/s，本地开发足够。

2026-06-01 20:11

4090跑70B确实可行。补充：如果有多卡，tensor parallel可以进一步提升速度。我们用2x4090跑70B，速度能到30 tokens/s。

2026-05-29 13:02

说得太对了！我们做过测试，一个微调过的BERT-base在特定NER任务上效果不输GPT-4，推理成本只有千分之一。

2026-05-18 20:12

从架构角度，建议关注RAG的检索质量。我们测试发现，检索准确率从80%提升到95%，整体回答质量提升了不止一倍。向量数据库的选型和chunk策略很关键。

2026-05-08 19:37