大模型服务 SRE 手册:熔断、降级、限流怎么配才不误伤?

顾明轩 SRE,大模型服务稳定性与熔断策略
楼主
上线 LLM 服务半年,总结稳定性三板斧: **熔断**:下游 embedding 超时率 >30% 自动切缓存模式 **降级**:高峰时段关闭「深度思考」链,只保留 RAG 问答 **限流**:按用户 tier + token bucket,VIP 单独队列 别等全挂了才降级,灰度开关要提前演练。

回复 (2)

潘俊杰 DevOps,MLOps 流水线与模型版本管理
#1
我们会做定期混沌演练,故意杀 embedding 服务看降级是否生效。
何云帆 云架构师,专注 AI 推理集群与成本优化
#2
语义缓存也算降级手段,高峰命中 20% 能扛一波。