人工智能（AI）与大语言模型（LLM）基础

模型选择：质量、成本、延迟与任务匹配

30 分钟 · 入门 · 公开章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

创建账户登录

学习目标

理解模型选择不是简单选择“最强模型”。
能按任务类型分析质量、成本和延迟。
知道什么时候需要模型路由或多阶段调用。

核心概念

不同模型适合不同任务。复杂推理、长文档综合、代码修改和高风险决策需要更强的模型；分类、摘要、字段抽取、语气改写等任务可能用更快、更便宜的模型就能达到要求。

产品中的成本不仅是单次调用价格，还包括输入 Token、输出 Token、重试次数、缓存命中率和用户触发频率。延迟也不是模型响应时间一个数字，而是从用户点击到界面可用结果的端到端体验。

模型选择应该由任务评测驱动。先定义可接受质量，再比较成本和速度。没有评测时，模型选择很容易变成主观争论。

示例与拆解

一个学习平台可能有三类人工智能功能：


1[
2  {
3    "task": "章节标题改写",
4    "risk": "low",
5    "latency_target": "< 2s",
6    "model_strategy": "fast model"
7  },
8  {
9    "task": "根据学习进度推荐路线",
10    "risk": "medium",
11    "latency_target": "< 5s",
12    "model_strategy": "standard model + structured output"
13  },
14  {

这个设计的重点是任务匹配。不是所有任务都要走同一个模型，也不是所有任务都允许同样的错误率。

常见误区

误区一：贵模型一定最适合。高成本模型可能让低价值高频功能无法上线。
误区二：只看单次调用价格。重试、长上下文和输出长度会显著影响真实成本。
误区三：忽略延迟。用户体验通常由端到端等待时间决定，而不只是模型名称。

小练习

列出一个人工智能应用中的 3 个任务，为每个任务标注风险级别、可接受延迟、是否需要结构化输出，以及你会优先选择的模型策略。

实操检查点

把 3 个任务放进同一张决策表，并为每个任务写出“降级策略”。真实产品里模型选择不是一次性决定，还要知道超时、超预算或质量不达标时怎么处理。


1任务：项目提交审查
2风险：high
3延迟目标：20s 内
4首选策略：强模型 + rubric + JSON 输出
5降级策略：保留提交，进入人工审核，不自动给出通过结论

随堂测验

完成本章测验，重点检查你是否能按任务而不是按名气选择模型。

本章总结

模型选择要服务于任务。用评测确认质量，用成本和延迟约束方案，用路由把不同复杂度的任务分配给合适模型。

下一步学习指引

下一章学习基础评测，定义什么叫一次人工智能输出“可用”。