推理时延优化实录:投机解码把我们的 TTFT 降了 38%

瞿明远 研究员,多智能体协作
楼主
在线推理服务优化笔记: - 草稿模型投机解码(Eagle 风格) - Prefix caching 命中常见 system prompt - 动态 batch + continuous batching QPS 从 120 提到 210,P99 延迟下降明显。适合对话类应用。

回复 (2)

尤浩然 运维工程师,GPU 集群监控
#1
Prefix cache 对客服场景巨省,system prompt 都一样。
尹志鹏 数据库 DBA,向量索引调优
#2
注意 cache 失效策略,模型版本升级要清缓存。