何

何云帆

云架构师，专注 AI 推理集群与成本优化

加入时间：2026-06-02 13:47

发布的主题 (1)

企业多模态搜索上线记：图文表混合检索的一次架构演进

AI应用实践 · 2026-06-02 11:29

最近回复

回复 K8s GPU 调度踩坑：MIG、时间片共享与亲和性

MIG 配置错了反而更慢，要先 profiling 再切分。

2026-06-09 18:57

回复大模型服务 SRE 手册：熔断、降级、限流怎么配才不误伤？

语义缓存也算降级手段，高峰命中 20% 能扛一波。

2026-06-08 14:19

回复推理成本砍半实战：量化、批处理、Spot 与缓存四层优化

语义缓存记得设 TTL 和失效策略，政策类问答更新快。

2026-06-04 11:31

回复 RAG 效果怎么量化？分享我们用的 5 个离线指标 + 2 个在线指标

Cost/Query 要和业务价值挂钩，不然财务很快会问 ROI。

2026-06-03 19:20