人工智能(AI)与大语言模型(LLM)基础
模型选择:质量、成本、延迟与任务匹配
学习目标
- 理解模型选择不是简单选择“最强模型”。
- 能按任务类型分析质量、成本和延迟。
- 知道什么时候需要模型路由或多阶段调用。
核心概念
不同模型适合不同任务。复杂推理、长文档综合、代码修改和高风险决策需要更强的模型;分类、摘要、字段抽取、语气改写等任务可能用更快、更便宜的模型就能达到要求。
产品中的成本不仅是单次调用价格,还包括输入 Token、输出 Token、重试次数、缓存命中率和用户触发频率。延迟也不是模型响应时间一个数字,而是从用户点击到界面可用结果的端到端体验。
模型选择应该由任务评测驱动。先定义可接受质量,再比较成本和速度。没有评测时,模型选择很容易变成主观争论。
示例与拆解
一个学习平台可能有三类人工智能功能:
1[ 2 { 3 "task": "章节标题改写", 4 "risk": "low", 5 "latency_target": "< 2s", 6 "model_strategy": "fast model" 7 }, 8 { 9 "task": "根据学习进度推荐路线", 10 "risk": "medium", 11 "latency_target": "< 5s", 12 "model_strategy": "standard model + structured output" 13 }, 14 {
这个设计的重点是任务匹配。不是所有任务都要走同一个模型,也不是所有任务都允许同样的错误率。
常见误区
- 误区一:贵模型一定最适合。高成本模型可能让低价值高频功能无法上线。
- 误区二:只看单次调用价格。重试、长上下文和输出长度会显著影响真实成本。
- 误区三:忽略延迟。用户体验通常由端到端等待时间决定,而不只是模型名称。
小练习
列出一个人工智能应用中的 3 个任务,为每个任务标注风险级别、可接受延迟、是否需要结构化输出,以及你会优先选择的模型策略。
实操检查点
把 3 个任务放进同一张决策表,并为每个任务写出“降级策略”。真实产品里模型选择不是一次性决定,还要知道超时、超预算或质量不达标时怎么处理。
1任务:项目提交审查 2风险:high 3延迟目标:20s 内 4首选策略:强模型 + rubric + JSON 输出 5降级策略:保留提交,进入人工审核,不自动给出通过结论
随堂测验
完成本章测验,重点检查你是否能按任务而不是按名气选择模型。
本章总结
模型选择要服务于任务。用评测确认质量,用成本和延迟约束方案,用路由把不同复杂度的任务分配给合适模型。
下一步学习指引
下一章学习基础评测,定义什么叫一次人工智能输出“可用”。