用 Rust 写推理网关:延迟比 Python 中间件低多少?
把 Python FastAPI 网关换成 Rust(axum + tokio)的 benchmark:
- 纯代理转发:P99 延迟降 40%
- 加鉴权 + 日志:仍低 25%
- 开发效率:显然不如 Python
适合 QPS 过万的核心链路,业务逻辑复杂仍用 Python。
回复 (1)
Rust 适合网关和 tokenizer 热路径,模型本身还是 C++/CUDA。
登录 后参与讨论