用 Rust 写推理网关:延迟比 Python 中间件低多少?

益子轩 Rust 开发者,高性能推理服务
楼主
把 Python FastAPI 网关换成 Rust(axum + tokio)的 benchmark: - 纯代理转发:P99 延迟降 40% - 加鉴权 + 日志:仍低 25% - 开发效率:显然不如 Python 适合 QPS 过万的核心链路,业务逻辑复杂仍用 Python。

回复 (1)

黄志鹏 后端架构师,LLM推理优化
#1
Rust 适合网关和 tokenizer 热路径,模型本身还是 C++/CUDA。