大语言模型运维（LLMOps）、评测与上线运维

执行追踪（Tracing）、日志、成本与延迟监控

40 分钟 · 挑战 · 会员章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

创建账户登录

学习目标

能设计一次人工智能请求的执行轨迹字段。
能监控质量、错误、成本和延迟。
能处理日志脱敏、权限和保留周期。

核心概念

人工智能应用上线后，问题不一定表现为服务报错。模型可能正常返回 200，但答案引用错了、拒答率突然升高、成本翻倍、延迟超出用户可接受范围，或者某个工具调用失败后被模型掩盖。

执行追踪（Tracing）的目标是把一次请求拆成可观察的事件：用户输入、检索结果、重排结果、提示词版本、模型调用、token 用量、工具调用、输出解析、最终响应和用户反馈。这样才能定位质量、成本和性能问题。

日志必须兼顾可排查和安全。不要无控制地保存原始敏感输入。常见做法是保存摘要、脱敏文本、哈希 ID、结构化指标和少量可授权查看的样本。

示例与拆解

一次请求执行轨迹可以记录为：


1{
2  "trace_id": "trace_20260502_001",
3  "feature": "course_qa",
4  "prompt_version": "course-qa-v4",
5  "model_id": "gpt-5.5",
6  "retrieval": {
7    "top_k": 5,
8    "hit_count": 4,
9    "index_version": "kb-index-2026-05-02"
10  },
11  "usage": {
12    "input_tokens": 3200,
13    "output_tokens": 480,
14    "cost_usd": 0.014,

这些字段能支持问题排查：成本升高时看 token，用时变长时看检索和模型阶段，引用错误时看检索命中和上下文组装。

常见误区

误区一：只监控接口报错率。人工智能质量退化经常不会触发 500。
误区二：只看总成本。没有按功能和模型拆分，就不知道该优化哪里。
误区三：保存所有原文。日志本身会变成隐私和合规风险。

小练习

为一个检索增强生成问答接口设计监控面板。至少包含请求量、成功率、格式有效率、拒答率、平均成本、P95 延迟、引用数量和用户负反馈率。

实操检查点

写出 8 个核心指标和报警阈值。


1metric                         threshold
2format_invalid_rate            > 2% for 15m
3p95_latency_ms                 > 5000 for 10m
4avg_cost_usd_per_request        > 0.05 for 30m
5negative_feedback_rate          > 8% for 1h

检查标准：每个指标都能对应一个明确排查动作，而不是只展示好看的数字。

随堂测验

完成本章测验时，重点判断哪些信息必须进入执行轨迹，哪些信息需要脱敏或限制访问。

本章总结

大语言模型监控要同时覆盖技术稳定性、质量、成本和延迟。执行轨迹让一次人工智能请求可以被分层排查，日志治理让排查能力不变成新的风险。

下一步学习指引

下一章学习发布、实验、回滚和运行手册。监控能发现问题，发布流程要决定什么时候上线、什么时候停止、什么时候回滚。