大语言模型运维（LLMOps）、评测与上线运维

提示词、模型与数据集版本管理

35 分钟 · 挑战 · 公开章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

创建账户登录

学习目标

理解人工智能应用的行为由提示词、模型、数据和代码共同决定。
能设计最小版本注册表。
能复现一次历史输出对应的配置组合。

核心概念

传统软件通常能用代码版本复现行为。人工智能应用不够。一次输出可能受系统提示词、用户模板、模型名称、模型参数、检索数据、工具版本、评测数据集和后处理逻辑共同影响。

大语言模型运维（LLMOps）的第一步是把这些对象显式版本化。提示词改一个约束、模型切一个小版本、评测集新增一批困难样例，都会改变质量判断。没有版本记录，线上效果变差时无法判断是模型、提示词、知识库还是代码变了。

最小做法不是立刻搭平台，而是建立一张发布注册表：每次发布记录 release_id、prompt_version、model_id、dataset_version、code_revision、eval_result_id、发布时间和回滚目标。

示例与拆解

一个版本注册表可以从 JSON 开始：


1{
2  "release_id": "answering-v1.4.0",
3  "feature": "course_qa",
4  "prompt_version": "prompt-course-qa-2026-05-02",
5  "model_id": "gpt-5.5",
6  "retrieval_index_version": "kb-index-2026-05-02",
7  "eval_dataset_version": "course-qa-regression-v3",
8  "code_revision": "local-build-18",
9  "eval_result": {
10    "pass_rate": 0.91,
11    "citation_accuracy": 0.88,
12    "avg_cost_usd": 0.012
13  },
14  "rollback_to": "answering-v1.3.2"

上线后如果用户反馈“引用不准确”，你可以先确认当前运行的是哪个提示词和索引版本，再和发布前评测记录对比。

常见误区

误区一：只记录模型名称。提示词、检索数据和后处理经常才是行为变化来源。
误区二：评测集不断改，却把分数放在同一张趋势图里直接比较。
误区三：版本记录只存在聊天记录或个人笔记中，团队无法查询和回滚。

小练习

为你的一个人工智能功能设计发布清单。至少包含 feature、prompt_version、model_id、dataset_version、code_revision、eval_result 和 rollback_to。

实操检查点

创建一个 ai_release_manifest.json，记录当前功能的完整版本组合。


1{
2  "feature": "project_review_assistant",
3  "prompt_version": "project-review-v1",
4  "model_id": "gpt-5.5",
5  "eval_dataset_version": "project-review-20cases-v1",
6  "code_revision": "local-dev",
7  "rollback_to": null
8}

检查标准：拿到任意一条线上回答后，都能追溯它对应的提示词、模型、数据集和代码版本。

随堂测验

完成本章测验时，重点判断哪些对象会影响人工智能输出行为，以及哪些版本变化会让历史分数失去直接可比性。

本章总结

版本管理让人工智能应用具备可复现性。提示词、模型、数据集、索引和代码都应进入发布记录，避免线上问题只能靠猜。

下一步学习指引

下一章学习自动评测、人工评审和回归测试。版本能说明“变了什么”，评测负责说明“变好还是变坏”。