智构学堂人工智能应用工程
返回路线

大语言模型运维(LLMOps)、评测与上线运维

提示词、模型与数据集版本管理

35 分钟 · 挑战 · 公开章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

学习目标

  • 理解人工智能应用的行为由提示词、模型、数据和代码共同决定。
  • 能设计最小版本注册表。
  • 能复现一次历史输出对应的配置组合。

核心概念

传统软件通常能用代码版本复现行为。人工智能应用不够。一次输出可能受系统提示词、用户模板、模型名称、模型参数、检索数据、工具版本、评测数据集和后处理逻辑共同影响。

大语言模型运维(LLMOps)的第一步是把这些对象显式版本化。提示词改一个约束、模型切一个小版本、评测集新增一批困难样例,都会改变质量判断。没有版本记录,线上效果变差时无法判断是模型、提示词、知识库还是代码变了。

最小做法不是立刻搭平台,而是建立一张发布注册表:每次发布记录 release_id、prompt_version、model_id、dataset_version、code_revision、eval_result_id、发布时间和回滚目标。

示例与拆解

一个版本注册表可以从 JSON 开始:

1{ 2 "release_id": "answering-v1.4.0", 3 "feature": "course_qa", 4 "prompt_version": "prompt-course-qa-2026-05-02", 5 "model_id": "gpt-5.5", 6 "retrieval_index_version": "kb-index-2026-05-02", 7 "eval_dataset_version": "course-qa-regression-v3", 8 "code_revision": "local-build-18", 9 "eval_result": { 10 "pass_rate": 0.91, 11 "citation_accuracy": 0.88, 12 "avg_cost_usd": 0.012 13 }, 14 "rollback_to": "answering-v1.3.2"

上线后如果用户反馈“引用不准确”,你可以先确认当前运行的是哪个提示词和索引版本,再和发布前评测记录对比。

常见误区

  • 误区一:只记录模型名称。提示词、检索数据和后处理经常才是行为变化来源。
  • 误区二:评测集不断改,却把分数放在同一张趋势图里直接比较。
  • 误区三:版本记录只存在聊天记录或个人笔记中,团队无法查询和回滚。

小练习

为你的一个人工智能功能设计发布清单。至少包含 feature、prompt_version、model_id、dataset_version、code_revision、eval_result 和 rollback_to。

实操检查点

创建一个 ai_release_manifest.json,记录当前功能的完整版本组合。

1{ 2 "feature": "project_review_assistant", 3 "prompt_version": "project-review-v1", 4 "model_id": "gpt-5.5", 5 "eval_dataset_version": "project-review-20cases-v1", 6 "code_revision": "local-dev", 7 "rollback_to": null 8}

检查标准:拿到任意一条线上回答后,都能追溯它对应的提示词、模型、数据集和代码版本。

随堂测验

完成本章测验时,重点判断哪些对象会影响人工智能输出行为,以及哪些版本变化会让历史分数失去直接可比性。

本章总结

版本管理让人工智能应用具备可复现性。提示词、模型、数据集、索引和代码都应进入发布记录,避免线上问题只能靠猜。

下一步学习指引

下一章学习自动评测、人工评审和回归测试。版本能说明“变了什么”,评测负责说明“变好还是变坏”。