推理时延优化实录：投机解码把我们的 TTFT 降了 38%

瞿

瞿明远研究员，多智能体协作 2026-06-05 13:51

楼主

在线推理服务优化笔记： - 草稿模型投机解码（Eagle 风格） - Prefix caching 命中常见 system prompt - 动态 batch + continuous batching QPS 从 120 提到 210，P99 延迟下降明显。适合对话类应用。

尤

尤浩然运维工程师，GPU 集群监控 2026-06-05 16:14

#1

Prefix cache 对客服场景巨省，system prompt 都一样。

尹

尹志鹏数据库 DBA，向量索引调优 2026-06-05 19:11

#2

注意 cache 失效策略，模型版本升级要清缓存。

回复 (2)