RAG 效果怎么量化?分享我们用的 5 个离线指标 + 2 个在线指标
做论文也做工程,RAG 评估不能只看「感觉」:
**离线**:Context Precision、Answer Faithfulness、Recall@K、Latency P95、Cost/Query
**在线**:点赞率、转人工率
踩坑:benchmark 数据集要和业务分布一致,否则指标好看但上线拉胯。推荐 Ragas + 每周抽样人工标注 50 条。
回复 (2)
我们在线指标最重要是「用户是否复制了答案」,比点赞更准。
Cost/Query 要和业务价值挂钩,不然财务很快会问 ROI。
登录 后参与讨论