智构学堂人工智能应用工程
返回路线

人工智能(AI)与大语言模型(LLM)基础

模型选择:质量、成本、延迟与任务匹配

30 分钟 · 入门 · 公开章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

学习目标

  • 理解模型选择不是简单选择“最强模型”。
  • 能按任务类型分析质量、成本和延迟。
  • 知道什么时候需要模型路由或多阶段调用。

核心概念

不同模型适合不同任务。复杂推理、长文档综合、代码修改和高风险决策需要更强的模型;分类、摘要、字段抽取、语气改写等任务可能用更快、更便宜的模型就能达到要求。

产品中的成本不仅是单次调用价格,还包括输入 Token、输出 Token、重试次数、缓存命中率和用户触发频率。延迟也不是模型响应时间一个数字,而是从用户点击到界面可用结果的端到端体验。

模型选择应该由任务评测驱动。先定义可接受质量,再比较成本和速度。没有评测时,模型选择很容易变成主观争论。

示例与拆解

一个学习平台可能有三类人工智能功能:

1[ 2 { 3 "task": "章节标题改写", 4 "risk": "low", 5 "latency_target": "< 2s", 6 "model_strategy": "fast model" 7 }, 8 { 9 "task": "根据学习进度推荐路线", 10 "risk": "medium", 11 "latency_target": "< 5s", 12 "model_strategy": "standard model + structured output" 13 }, 14 {

这个设计的重点是任务匹配。不是所有任务都要走同一个模型,也不是所有任务都允许同样的错误率。

常见误区

  • 误区一:贵模型一定最适合。高成本模型可能让低价值高频功能无法上线。
  • 误区二:只看单次调用价格。重试、长上下文和输出长度会显著影响真实成本。
  • 误区三:忽略延迟。用户体验通常由端到端等待时间决定,而不只是模型名称。

小练习

列出一个人工智能应用中的 3 个任务,为每个任务标注风险级别、可接受延迟、是否需要结构化输出,以及你会优先选择的模型策略。

实操检查点

把 3 个任务放进同一张决策表,并为每个任务写出“降级策略”。真实产品里模型选择不是一次性决定,还要知道超时、超预算或质量不达标时怎么处理。

1任务:项目提交审查 2风险:high 3延迟目标:20s 内 4首选策略:强模型 + rubric + JSON 输出 5降级策略:保留提交,进入人工审核,不自动给出通过结论

随堂测验

完成本章测验,重点检查你是否能按任务而不是按名气选择模型。

本章总结

模型选择要服务于任务。用评测确认质量,用成本和延迟约束方案,用路由把不同复杂度的任务分配给合适模型。

下一步学习指引

下一章学习基础评测,定义什么叫一次人工智能输出“可用”。