上下文窗口 2M 之后:长文档 RAG 还要不要做 chunk?
模型上下文越来越长,我们重新评估了 RAG 架构:
**仍需要 chunk 的场景**:权限过滤、多租户、成本敏感
**可全量塞入的场景**:单文档 <200K、强全局推理
**混合方案**:目录级路由 + 局部 chunk 精检
长窗口不是银弹,检索质量仍决定上限。
回复 (2)
多租户场景全量塞上下文会串数据,chunk + ACL 仍是标配。
混合方案里目录路由我们叫 hierarchical RAG,效果不错。
登录 后参与讨论