大语言模型运维（LLMOps）、评测与上线运维

发布、实验、回滚与运行手册

40 分钟 · 挑战 · 会员章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

创建账户登录

学习目标

能定义人工智能功能发布门禁。
理解灰度实验、A/B 测试和回滚策略。
能编写最小运行手册，支持异常处置。

核心概念

人工智能功能发布不是把新提示词推到线上就结束。模型行为有概率性，知识库会变化，用户输入不可控，成本和延迟也可能在真实流量中放大。因此发布需要门禁、灰度、监控、回滚和运行手册。

发布门禁回答“能不能上”：版本是否记录完整，回归评测是否通过，高风险案例是否达标，监控是否就绪，回滚目标是否明确。灰度实验回答“真实流量是否更好”：只给一部分用户或请求使用新版本，观察质量、成本、延迟和反馈。

运行手册回答“出事怎么办”：哪些指标触发报警，谁负责判断，如何暂停新版本，如何回滚提示词或模型，如何通知客服和用户，如何记录复盘。

示例与拆解

一个发布门禁可以这样写：


1feature: course_qa
2candidate: answering-v1.4.0
3gate:
4  - 发布清单已完成
5  - regression pass rate >= 90%
6  - high risk cases pass rate = 100%
7  - format invalid rate <= 1%
8  - p95 latency <= 5s in staging
9  - rollback target = answering-v1.3.2
10  - dashboard and alert rules verified
11decision: canary 10%

如果灰度期间负反馈率超过阈值，就停止放量并回滚到上一稳定版本。

常见误区

误区一：把人工智能发布当静态文案发布。提示词小改动也可能改变边界行为。
误区二：只做 A/B，不看高风险样例。平均效果变好不能掩盖严重安全问题。
误区三：没有回滚目标。异常出现时临时找旧版本会浪费处置时间。

小练习

为一个“课程项目自动点评”功能写发布计划。包含发布候选版本、前置评测、灰度比例、核心指标、停止条件、回滚目标和负责人。

实操检查点

完成一份最小运行手册。


1报警：negative_feedback_rate > 8% 持续 1 小时
2第一步：暂停 candidate 版本继续放量
3第二步：抽样 20 条执行轨迹，判断是否集中在引用、格式或政策误读
4第三步：如高风险案例失败，立即回滚到 answering-v1.3.2
5第四步：记录影响范围、修复动作和新增回归用例

检查标准：异常发生时，团队成员能按运行手册在 10 分钟内判断是否暂停或回滚。

随堂测验

完成本章测验时，重点判断发布门禁、灰度实验和运行手册分别负责什么。

本章总结

人工智能上线运维的目标是让变更可控。发布门禁降低上线前风险，灰度实验验证真实表现，回滚和运行手册保证异常时能快速处置。

下一步学习指引

完成这条路线后，可以进入项目“大语言模型运维（LLMOps）发布与评测看板”，把版本、评测、监控和发布决策整合成一个可演示系统。