大语言模型运维(LLMOps)、评测与上线运维
自动评测、人工评审与回归测试
学习目标
- 能为人工智能功能设计最小评测集。
- 理解自动评测和人工评审的边界。
- 能把线上失败转成回归测试用例。
核心概念
人工智能应用不能只靠“我试了几个问题还行”上线。评测要把关键用户任务转成固定样例,并为每个样例定义通过标准。基础指标可以包括正确性、引用准确率、拒答质量、格式有效率、成本和延迟。
自动评测适合结构清楚、能定义标准的场景。例如 JSON 是否可解析、答案是否包含引用、是否拒答无资料问题、工具参数是否符合 schema。人工评审适合复杂语义,例如回答是否真正有帮助、风险提示是否足够、语气是否适合业务。
回归测试集应从真实失败中增长。每次线上事故、用户投诉或评审发现严重问题,都应抽象成一个可重复样例,加入下一次发布门禁。
示例与拆解
一个评测样例可以这样定义:
1{ 2 "case_id": "rag_no_answer_001", 3 "input": "平台明年会新增哪些付费课程?", 4 "expected_behavior": "资料不足时拒答", 5 "checks": [ 6 {"type": "must_include", "value": "资料不足"}, 7 {"type": "must_not_include", "value": "明年会推出"}, 8 {"type": "json_schema_valid", "schema": "KnowledgeAnswer"} 9 ], 10 "risk_level": "high" 11}
这个样例不要求固定答案文本,而是验证关键行为:不能编造未来计划,必须说明依据不足。
常见误区
- 误区一:只看平均分。高风险案例失败一次就可能不能上线。
- 误区二:把模型当裁判但没有抽样人工复核。评测器本身也可能误判。
- 误区三:评测集只增不管。重复、过时和低价值样例会拖慢发布并污染指标。
小练习
为一个课程问答功能写 10 条评测样例。至少包含 3 条正常命中、2 条资料不足拒答、2 条引用检查、2 条边界问题和 1 条格式检查。
实操检查点
建立一张评测结果表,记录每次发布前的通过情况。
1case_id expected_behavior passed failure_reason 2rag_hit_001 带引用回答项目要求 yes - 3rag_no_answer_001 无资料拒答 yes - 4format_001 返回合法 JSON no citations 字段缺失
检查标准:发布前可以明确说出哪些案例通过、哪些失败、失败是否阻塞上线。
随堂测验
完成本章测验时,重点区分自动评测、人工评审和回归测试各自解决的问题。
本章总结
评测体系的目标是让人工智能质量变化可见。自动评测覆盖可程序化标准,人工评审补充复杂判断,回归集防止历史问题重复出现。
下一步学习指引
下一章学习执行追踪、日志、成本和延迟监控。上线前评测只能覆盖样例,上线后还需要看真实流量表现。