检索增强生成(RAG)、智能体与产品落地
线上评测、监控与用户反馈闭环
学习目标
- 理解上线后仍需持续评测。
- 能列出人工智能功能的基础监控指标。
- 知道如何把用户反馈转成改进动作。
核心概念
人工智能功能上线后会面对训练样例没有覆盖的输入。用户会问模糊问题、越界问题、组合问题,也会上传质量不一的资料。上线前评测只能证明已知样例表现,线上监控用于发现真实漂移。
基础指标包括成功率、解析失败率、拒答率、人工转接率、平均延迟、平均成本、重试次数、用户反馈比例和低分样例。对于检索增强生成,还要监控检索命中、无结果比例和引用点击。
反馈闭环不是收集按钮。你需要把低分反馈归因到问题类型:检索错、上下文不足、提示词不清、界面误导、模型能力不足或用户预期不匹配。归因后再决定修复方式。
示例与拆解
知识助手的监控记录:
1{ 2 "question": "项目二要用哪些工具?", 3 "retrieval_hit_count": 0, 4 "answer_status": "insufficient_context", 5 "latency_ms": 1800, 6 "cost_usd": 0.003, 7 "user_feedback": "thumbs_down", 8 "failure_reason": "retrieval_miss" 9}
这个样例的修复方向不是先改回答语气,而是检查项目文档是否被索引、切片是否包含“项目二”、查询是否需要改写。
常见误区
- 误区一:只看点赞率。点赞率有用,但无法解释失败原因。
- 误区二:把所有差评都归因给模型。很多问题来自检索、产品文案或输入设计。
- 误区三:没有回归验证。修复一个样例后,要确认没有破坏其他样例。
小练习
为一个检索增强生成知识助手设计 8 个线上指标,并说明每个指标异常时优先检查什么。
实操检查点
把指标分成质量、成本、延迟、检索、人工介入五类。每个指标都要写一个触发阈值和排查动作,避免监控只停留在看板。
1指标:retrieval_zero_hit_rate 2阈值:连续 1 小时超过 15% 3优先排查:索引任务是否失败、查询改写是否丢失关键词、权限过滤是否过严
上线后每次提示词或切分策略变更,都要回看这些指标是否出现异常。
随堂测验
完成本章测验,重点检查你是否能把线上反馈转成可执行改进。
本章总结
人工智能产品上线后需要持续监控质量、成本、延迟和用户反馈。反馈只有进入归因、修复和回归验证,才形成闭环。
下一步学习指引
下一章学习从演示到产品的权限、成本、发布和运维常识。