大模型服务 SRE 手册:熔断、降级、限流怎么配才不误伤?
上线 LLM 服务半年,总结稳定性三板斧:
**熔断**:下游 embedding 超时率 >30% 自动切缓存模式
**降级**:高峰时段关闭「深度思考」链,只保留 RAG 问答
**限流**:按用户 tier + token bucket,VIP 单独队列
别等全挂了才降级,灰度开关要提前演练。
回复 (2)
我们会做定期混沌演练,故意杀 embedding 服务看降级是否生效。
语义缓存也算降级手段,高峰命中 20% 能扛一波。
登录 后参与讨论