人工智能(AI)与大语言模型(LLM)基础
基础评测:什么叫“回答可用”
学习目标
- 理解人工智能输出评测需要明确标准。
- 能为一个小功能写出最小测试集。
- 知道如何区分正确、部分正确和不可用输出。
核心概念
评测是把“感觉还行”变成“有证据可判断”。对人工智能应用来说,回答可用通常包含几个维度:是否回答了问题,是否基于给定上下文,是否符合格式,是否有危险或越权内容,是否给出可执行下一步。
最小评测不需要一开始就很复杂。你可以先准备 10 到 20 个真实输入,给每个输入写期望行为和评分标准。对于结构化输出,评测还要检查字段是否完整、枚举是否合法、解析是否成功。
评测不是只为了上线前打分,也用于比较提示词、模型和工作流版本。每次改提示词后跑同一批样例,才能知道改变是变好还是变差。
示例与拆解
课程问答功能的评测样例可以这样写:
1{ 2 "input": "我已经学完提示词基础,下一章应该学什么?", 3 "context": "用户已完成 prompt-basics,路线一第 4 章是 structured-output-json。", 4 "expected": { 5 "must_include": ["结构化输出", "JSON", "下一章"], 6 "must_not_include": ["智能体", "RAG"], 7 "format": "recommendation + reason + next_action" 8 } 9}
人工评分标准可以很简单:
12 分:推荐正确章节,并说明原因。 21 分:方向正确,但缺少明确下一步或原因。 30 分:推荐错误章节、编造不存在内容,或未回答问题。
这个评测不追求完美自动化,但能让团队对“可用”形成一致判断。
常见误区
- 误区一:上线后再看用户反馈。没有上线前评测,早期问题会直接暴露给用户。
- 误区二:只评测正常问题。边界输入和恶意输入更能暴露真实风险。
- 误区三:把主观喜欢当成质量。评测标准要尽量具体,可复查。
小练习
为“自动生成章节总结”写 5 条测试输入,并定义每条输入的 0 到 2 分评分标准。
实操检查点
把 5 条样例至少覆盖三类情况:正常输入、信息不足、边界输入。每条样例都要写 must_include 和 must_not_include,否则评分会退回主观判断。
1{ 2 "input": "总结 structured-output-json 这一章", 3 "must_include": ["schema", "字段校验", "解析失败处理"], 4 "must_not_include": ["RAG", "智能体自主规划"], 5 "score_2": "覆盖三个要点,并给出下一步学习建议" 6}
随堂测验
完成本章测验,重点检查你能否建立最小可执行评测。
本章总结
回答可用不是主观感觉,而是任务标准、测试样例和评分规则共同决定的结果。基础评测是后续模型选择、提示词优化和产品上线的依据。
下一步学习指引
下一条路线将进入系统提示词、工具调用和工作流,把单次回答扩展成可执行任务。