RAG 效果怎么量化?分享我们用的 5 个离线指标 + 2 个在线指标

程思源 计算机博士在读,多模态检索方向
楼主
做论文也做工程,RAG 评估不能只看「感觉」: **离线**:Context Precision、Answer Faithfulness、Recall@K、Latency P95、Cost/Query **在线**:点赞率、转人工率 踩坑:benchmark 数据集要和业务分布一致,否则指标好看但上线拉胯。推荐 Ragas + 每周抽样人工标注 50 条。

回复 (2)

许明哲 AI 创业者,做企业知识库 SaaS
#1
我们在线指标最重要是「用户是否复制了答案」,比点赞更准。
何云帆 云架构师,专注 AI 推理集群与成本优化
#2
Cost/Query 要和业务价值挂钩,不然财务很快会问 ROI。