人工智能（AI）与大语言模型（LLM）基础

基础评测：什么叫“回答可用”

35 分钟 · 入门 · 公开章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

创建账户登录

学习目标

理解人工智能输出评测需要明确标准。
能为一个小功能写出最小测试集。
知道如何区分正确、部分正确和不可用输出。

核心概念

评测是把“感觉还行”变成“有证据可判断”。对人工智能应用来说，回答可用通常包含几个维度：是否回答了问题，是否基于给定上下文，是否符合格式，是否有危险或越权内容，是否给出可执行下一步。

最小评测不需要一开始就很复杂。你可以先准备 10 到 20 个真实输入，给每个输入写期望行为和评分标准。对于结构化输出，评测还要检查字段是否完整、枚举是否合法、解析是否成功。

评测不是只为了上线前打分，也用于比较提示词、模型和工作流版本。每次改提示词后跑同一批样例，才能知道改变是变好还是变差。

示例与拆解

课程问答功能的评测样例可以这样写：


1{
2  "input": "我已经学完提示词基础，下一章应该学什么？",
3  "context": "用户已完成 prompt-basics，路线一第 4 章是 structured-output-json。",
4  "expected": {
5    "must_include": ["结构化输出", "JSON", "下一章"],
6    "must_not_include": ["智能体", "RAG"],
7    "format": "recommendation + reason + next_action"
8  }
9}

人工评分标准可以很简单：


12 分：推荐正确章节，并说明原因。
21 分：方向正确，但缺少明确下一步或原因。
30 分：推荐错误章节、编造不存在内容，或未回答问题。

这个评测不追求完美自动化，但能让团队对“可用”形成一致判断。

常见误区

误区一：上线后再看用户反馈。没有上线前评测，早期问题会直接暴露给用户。
误区二：只评测正常问题。边界输入和恶意输入更能暴露真实风险。
误区三：把主观喜欢当成质量。评测标准要尽量具体，可复查。

小练习

为“自动生成章节总结”写 5 条测试输入，并定义每条输入的 0 到 2 分评分标准。

实操检查点

把 5 条样例至少覆盖三类情况：正常输入、信息不足、边界输入。每条样例都要写 must_include 和 must_not_include，否则评分会退回主观判断。


1{
2  "input": "总结 structured-output-json 这一章",
3  "must_include": ["schema", "字段校验", "解析失败处理"],
4  "must_not_include": ["RAG", "智能体自主规划"],
5  "score_2": "覆盖三个要点，并给出下一步学习建议"
6}

随堂测验

完成本章测验，重点检查你能否建立最小可执行评测。

本章总结

回答可用不是主观感觉，而是任务标准、测试样例和评分规则共同决定的结果。基础评测是后续模型选择、提示词优化和产品上线的依据。

下一步学习指引

下一条路线将进入系统提示词、工具调用和工作流，把单次回答扩展成可执行任务。