智构学堂人工智能应用工程
返回路线

生产级检索增强生成(RAG)与知识系统

增量索引、回收策略与质量回归

40 分钟 · 挑战 · 会员章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

学习目标

  • 理解知识更新对检索增强生成(RAG)稳定性的影响。
  • 能设计新增、修改、删除文档的索引流程。
  • 能建立最小召回质量回归集。

核心概念

生产知识库不会静止。产品文档会更新,政策会过期,FAQ 会合并,客户资料会删除。索引系统必须知道哪些文档变了,并让线上检索尽快反映这些变化。

增量索引通常依赖内容 hash、更新时间、文档 id 和版本号。新增文档生成新 chunk,修改文档更新相关 chunk,删除文档则需要回收旧 chunk 或标记 tombstone,避免旧内容继续被引用。

质量回归集是一组关键问题和期望命中片段。每次调整切分、嵌入、重排、权限或数据清洗,都应该跑这组查询,确认召回没有明显退化。

示例与拆解

文档索引记录可以这样设计:

1{ 2 "document_id": "refund-policy", 3 "version": 3, 4 "content_hash": "sha256:...", 5 "indexed_at": "2026-05-02T10:00:00Z", 6 "status": "active", 7 "chunk_ids": ["refund_policy_v3_001", "refund_policy_v3_002"] 8}

删除文档时不要只删原文:

11. 将 document status 标记为 deleted 22. 将关联 chunk 从可检索索引移除 33. 记录删除时间和操作人 44. 跑回归查询,确认旧片段不再命中

常见误区

  • 误区一:只支持全量重建。数据大后成本高,也容易造成长时间不一致。
  • 误区二:删除原文但不删除 chunk。向量索引里的旧片段仍可能被召回。
  • 误区三:改切分策略后不跑回归。召回退化往往不会立刻被发现。

小练习

为一个知识库写出新增、修改、删除三类事件的索引处理流程,并说明每类事件如何验证成功。

实操检查点

准备一张回归表,至少 5 个问题,每个问题包含期望 chunk、最低排名和失败处理。

1问题:企业版退款是否需要审批? 2期望 chunk:refund_policy_enterprise_approval 3最低排名:top 3 4失败处理:阻止发布新索引,检查切分和权限过滤

随堂测验

完成本章测验,重点检查你是否能让知识更新进入可控流程。

本章总结

生产级检索增强生成必须处理知识变化。增量索引保证更新效率,回收策略避免旧知识泄露,质量回归保证关键问题仍能命中正确材料。

下一步学习指引

完成本路线后,可以进入“生产级企业知识库检索增强生成”项目,把权限、混合检索和增量索引组合起来。