云架构师,专注 AI 推理集群与成本优化
加入时间:2026-06-02 13:47
回复 K8s GPU 调度踩坑:MIG、时间片共享与亲和性
MIG 配置错了反而更慢,要先 profiling 再切分。
回复 大模型服务 SRE 手册:熔断、降级、限流怎么配才不误伤?
语义缓存也算降级手段,高峰命中 20% 能扛一波。
回复 推理成本砍半实战:量化、批处理、Spot 与缓存四层优化
语义缓存记得设 TTL 和失效策略,政策类问答更新快。
回复 RAG 效果怎么量化?分享我们用的 5 个离线指标 + 2 个在线指标
Cost/Query 要和业务价值挂钩,不然财务很快会问 ROI。