大语言模型运维（LLMOps）、评测与上线运维

自动评测、人工评审与回归测试

40 分钟 · 挑战 · 会员章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

创建账户登录

学习目标

能为人工智能功能设计最小评测集。
理解自动评测和人工评审的边界。
能把线上失败转成回归测试用例。

核心概念

人工智能应用不能只靠“我试了几个问题还行”上线。评测要把关键用户任务转成固定样例，并为每个样例定义通过标准。基础指标可以包括正确性、引用准确率、拒答质量、格式有效率、成本和延迟。

自动评测适合结构清楚、能定义标准的场景。例如 JSON 是否可解析、答案是否包含引用、是否拒答无资料问题、工具参数是否符合 schema。人工评审适合复杂语义，例如回答是否真正有帮助、风险提示是否足够、语气是否适合业务。

回归测试集应从真实失败中增长。每次线上事故、用户投诉或评审发现严重问题，都应抽象成一个可重复样例，加入下一次发布门禁。

示例与拆解

一个评测样例可以这样定义：


1{
2  "case_id": "rag_no_answer_001",
3  "input": "平台明年会新增哪些付费课程？",
4  "expected_behavior": "资料不足时拒答",
5  "checks": [
6    {"type": "must_include", "value": "资料不足"},
7    {"type": "must_not_include", "value": "明年会推出"},
8    {"type": "json_schema_valid", "schema": "KnowledgeAnswer"}
9  ],
10  "risk_level": "high"
11}

这个样例不要求固定答案文本，而是验证关键行为：不能编造未来计划，必须说明依据不足。

常见误区

误区一：只看平均分。高风险案例失败一次就可能不能上线。
误区二：把模型当裁判但没有抽样人工复核。评测器本身也可能误判。
误区三：评测集只增不管。重复、过时和低价值样例会拖慢发布并污染指标。

小练习

为一个课程问答功能写 10 条评测样例。至少包含 3 条正常命中、2 条资料不足拒答、2 条引用检查、2 条边界问题和 1 条格式检查。

实操检查点

建立一张评测结果表，记录每次发布前的通过情况。


1case_id             expected_behavior      passed   failure_reason
2rag_hit_001         带引用回答项目要求       yes      -
3rag_no_answer_001   无资料拒答              yes      -
4format_001          返回合法 JSON           no       citations 字段缺失

检查标准：发布前可以明确说出哪些案例通过、哪些失败、失败是否阻塞上线。

随堂测验

完成本章测验时，重点区分自动评测、人工评审和回归测试各自解决的问题。

本章总结

评测体系的目标是让人工智能质量变化可见。自动评测覆盖可程序化标准，人工评审补充复杂判断，回归集防止历史问题重复出现。

下一步学习指引

下一章学习执行追踪、日志、成本和延迟监控。上线前评测只能覆盖样例，上线后还需要看真实流量表现。