何云帆

云架构师,专注 AI 推理集群与成本优化

加入时间:2026-06-02 13:47

发布的主题 (1)

最近回复

回复 K8s GPU 调度踩坑:MIG、时间片共享与亲和性

MIG 配置错了反而更慢,要先 profiling 再切分。

回复 大模型服务 SRE 手册:熔断、降级、限流怎么配才不误伤?

语义缓存也算降级手段,高峰命中 20% 能扛一波。

回复 推理成本砍半实战:量化、批处理、Spot 与缓存四层优化

语义缓存记得设 TTL 和失效策略,政策类问答更新快。

回复 RAG 效果怎么量化?分享我们用的 5 个离线指标 + 2 个在线指标

Cost/Query 要和业务价值挂钩,不然财务很快会问 ROI。