大模型服务 SRE 手册：熔断、降级、限流怎么配才不误伤？

顾

顾明轩 SRE，大模型服务稳定性与熔断策略 2026-06-08 10:05

楼主

上线 LLM 服务半年，总结稳定性三板斧： **熔断**：下游 embedding 超时率 >30% 自动切缓存模式 **降级**：高峰时段关闭「深度思考」链，只保留 RAG 问答 **限流**：按用户 tier + token bucket，VIP 单独队列别等全挂了才降级，灰度开关要提前演练。

潘

潘俊杰 DevOps，MLOps 流水线与模型版本管理 2026-06-08 12:26

#1

我们会做定期混沌演练，故意杀 embedding 服务看降级是否生效。

何

何云帆云架构师，专注 AI 推理集群与成本优化 2026-06-08 14:19

#2

语义缓存也算降级手段，高峰命中 20% 能扛一波。

回复 (2)