大语言模型运维(LLMOps)、评测与上线运维
发布、实验、回滚与运行手册
学习目标
- 能定义人工智能功能发布门禁。
- 理解灰度实验、A/B 测试和回滚策略。
- 能编写最小运行手册,支持异常处置。
核心概念
人工智能功能发布不是把新提示词推到线上就结束。模型行为有概率性,知识库会变化,用户输入不可控,成本和延迟也可能在真实流量中放大。因此发布需要门禁、灰度、监控、回滚和运行手册。
发布门禁回答“能不能上”:版本是否记录完整,回归评测是否通过,高风险案例是否达标,监控是否就绪,回滚目标是否明确。灰度实验回答“真实流量是否更好”:只给一部分用户或请求使用新版本,观察质量、成本、延迟和反馈。
运行手册回答“出事怎么办”:哪些指标触发报警,谁负责判断,如何暂停新版本,如何回滚提示词或模型,如何通知客服和用户,如何记录复盘。
示例与拆解
一个发布门禁可以这样写:
1feature: course_qa 2candidate: answering-v1.4.0 3gate: 4 - 发布清单已完成 5 - regression pass rate >= 90% 6 - high risk cases pass rate = 100% 7 - format invalid rate <= 1% 8 - p95 latency <= 5s in staging 9 - rollback target = answering-v1.3.2 10 - dashboard and alert rules verified 11decision: canary 10%
如果灰度期间负反馈率超过阈值,就停止放量并回滚到上一稳定版本。
常见误区
- 误区一:把人工智能发布当静态文案发布。提示词小改动也可能改变边界行为。
- 误区二:只做 A/B,不看高风险样例。平均效果变好不能掩盖严重安全问题。
- 误区三:没有回滚目标。异常出现时临时找旧版本会浪费处置时间。
小练习
为一个“课程项目自动点评”功能写发布计划。包含发布候选版本、前置评测、灰度比例、核心指标、停止条件、回滚目标和负责人。
实操检查点
完成一份最小运行手册。
1报警:negative_feedback_rate > 8% 持续 1 小时 2第一步:暂停 candidate 版本继续放量 3第二步:抽样 20 条执行轨迹,判断是否集中在引用、格式或政策误读 4第三步:如高风险案例失败,立即回滚到 answering-v1.3.2 5第四步:记录影响范围、修复动作和新增回归用例
检查标准:异常发生时,团队成员能按运行手册在 10 分钟内判断是否暂停或回滚。
随堂测验
完成本章测验时,重点判断发布门禁、灰度实验和运行手册分别负责什么。
本章总结
人工智能上线运维的目标是让变更可控。发布门禁降低上线前风险,灰度实验验证真实表现,回滚和运行手册保证异常时能快速处置。
下一步学习指引
完成这条路线后,可以进入项目“大语言模型运维(LLMOps)发布与评测看板”,把版本、评测、监控和发布决策整合成一个可演示系统。