推理时延优化实录:投机解码把我们的 TTFT 降了 38%
在线推理服务优化笔记:
- 草稿模型投机解码(Eagle 风格)
- Prefix caching 命中常见 system prompt
- 动态 batch + continuous batching
QPS 从 120 提到 210,P99 延迟下降明显。适合对话类应用。
回复 (2)
Prefix cache 对客服场景巨省,system prompt 都一样。
注意 cache 失效策略,模型版本升级要清缓存。
登录 后参与讨论