人工智能（AI）与大语言模型（LLM）基础

大语言模型（LLM）如何工作：Token、上下文与生成

30 分钟 · 入门 · 公开章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

学习目标

大语言模型（LLM）接收的不是“完整人类语义”，而是被切分后的 Token 序列。Token 可以是一个汉字、一个词的一部分、一个标点，也可能是代码中的片段。模型根据当前上下文中的 Token，预测后续最可能出现的 Token，并不断重复这个过程生成回答。

上下文窗口是一次请求中模型能看到的内容总量限制，包括系统提示词、开发者指令、用户输入、历史消息、检索材料和模型输出。窗口越大，不代表答案一定越好。无关材料太多会稀释重点，让模型更难找到真正依据。

幻觉不是模型“故意撒谎”，而是生成机制的自然风险。当任务要求确定答案，但上下文没有可靠依据时，模型仍可能生成流畅但错误的内容。产品设计要通过上下文、引用、拒答规则和评测降低这个风险。

一个课程助手收到如下输入：


1问题：平台第三条路线第 2 章讲什么？
2上下文：只有用户问题，没有课程路线数据。

不稳定输出可能是：


第三条路线第 2 章主要讲智能体规划。

如果真实课程中第 2 章是“文档切分、嵌入（Embedding）与召回质量”，这个回答就是幻觉。更好的链路是先提供依据：


1{
2  "retrieved_context": [
3    "路线三第 2 章：文档切分、嵌入（Embedding）与召回质量。结果：理解检索增强生成质量往往取决于数据切分和召回质量。"
4  ],
5  "question": "平台第三条路线第 2 章讲什么？"
6}

此时回答可以稳定为：


第三条路线第 2 章讲文档切分、嵌入（Embedding）与召回质量，重点是理解检索增强生成质量为什么取决于数据处理和召回，而不只是提示词。

找一段 1000 字左右的产品说明，写出你会放进提示词的 3 条关键信息，并说明哪些内容应该被省略或通过检索获取。

把材料分成三类：必须进入本次提示词、应该通过检索获取、应该丢弃。每类至少写 2 条，并给出原因。不要只写“太长所以丢弃”，要说明它对当前问题是否有用。

可用这个清单自检：


1- 这条信息是否直接回答当前问题？
2- 它是否会改变模型的结论？
3- 它是否是事实依据，而不是背景噪声？
4- 如果不放入上下文，模型是否仍能可靠回答？

完成本章测验，重点检查你是否理解上下文窗口和幻觉之间的关系。

大语言模型根据上下文生成后续 Token。上下文质量直接影响输出质量，缺少依据时模型可能生成看似合理的错误内容。

下一章学习提示词基础，重点把任务目标、角色、约束和示例写清楚。