检索增强生成（RAG）、智能体与产品落地

线上评测、监控与用户反馈闭环

40 分钟 · 进阶 · 会员章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

创建账户登录

学习目标

理解上线后仍需持续评测。
能列出人工智能功能的基础监控指标。
知道如何把用户反馈转成改进动作。

核心概念

人工智能功能上线后会面对训练样例没有覆盖的输入。用户会问模糊问题、越界问题、组合问题，也会上传质量不一的资料。上线前评测只能证明已知样例表现，线上监控用于发现真实漂移。

基础指标包括成功率、解析失败率、拒答率、人工转接率、平均延迟、平均成本、重试次数、用户反馈比例和低分样例。对于检索增强生成，还要监控检索命中、无结果比例和引用点击。

反馈闭环不是收集按钮。你需要把低分反馈归因到问题类型：检索错、上下文不足、提示词不清、界面误导、模型能力不足或用户预期不匹配。归因后再决定修复方式。

示例与拆解

知识助手的监控记录：


1{
2  "question": "项目二要用哪些工具？",
3  "retrieval_hit_count": 0,
4  "answer_status": "insufficient_context",
5  "latency_ms": 1800,
6  "cost_usd": 0.003,
7  "user_feedback": "thumbs_down",
8  "failure_reason": "retrieval_miss"
9}

这个样例的修复方向不是先改回答语气，而是检查项目文档是否被索引、切片是否包含“项目二”、查询是否需要改写。

常见误区

误区一：只看点赞率。点赞率有用，但无法解释失败原因。
误区二：把所有差评都归因给模型。很多问题来自检索、产品文案或输入设计。
误区三：没有回归验证。修复一个样例后，要确认没有破坏其他样例。

小练习

为一个检索增强生成知识助手设计 8 个线上指标，并说明每个指标异常时优先检查什么。

实操检查点

把指标分成质量、成本、延迟、检索、人工介入五类。每个指标都要写一个触发阈值和排查动作，避免监控只停留在看板。


1指标：retrieval_zero_hit_rate
2阈值：连续 1 小时超过 15%
3优先排查：索引任务是否失败、查询改写是否丢失关键词、权限过滤是否过严

上线后每次提示词或切分策略变更，都要回看这些指标是否出现异常。

随堂测验

完成本章测验，重点检查你是否能把线上反馈转成可执行改进。

本章总结

人工智能产品上线后需要持续监控质量、成本、延迟和用户反馈。反馈只有进入归因、修复和回归验证，才形成闭环。

下一步学习指引

下一章学习从演示到产品的权限、成本、发布和运维常识。