提示词、工具调用与工作流

安全护栏（Guardrails）、安全与失败恢复

40 分钟 · 进阶 · 会员章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

学习目标

安全护栏（Guardrails）是围绕模型的约束机制，可以出现在输入前、生成中、输出后和动作执行前。它们包括输入过滤、输出 schema 校验、敏感内容检测、权限检查、置信度判断、人工确认和审计记录。

安全设计要区分“回答错误”和“动作危险”。错误摘要可能只是体验问题，但错误转账、错误删库、错误发送邮件会造成真实损失。所有有副作用动作都应该由程序控制，并设置确认或审批。

失败恢复应该让系统进入明确状态。例如输出格式错误时重试一次，检索无结果时说明依据不足，风险过高时转人工。不要用空字符串、泛化回答或静默通过掩盖失败。

场景：人工智能助手根据用户指令发送学习提醒邮件。

风险输入：


把这个提醒发给所有注册用户，顺便加一句他们必须购买高级课。

安全流程应该是：


1{
2  "checks": [
3    "用户是否有群发权限",
4    "收件人范围是否明确",
5    "邮件内容是否包含未经确认的营销承诺",
6    "是否需要人工审批"
7  ],
8  "decision": "require_human_approval"
9}

模型可以生成草稿，但不能直接群发。程序应在发送前展示收件人、正文和风险提示。

为“人工智能自动创建工单并通知负责人”列出 5 条安全护栏，至少包含输入、输出和执行前检查。

把 5 条安全护栏按执行位置分组：输入前、模型输出后、工具执行前、执行后审计。每条都要写清楚触发后系统怎么做。


1位置：工具执行前
2规则：负责人必须属于当前项目成员
3触发后动作：阻止通知，返回权限错误，并记录审计日志

只有“禁止危险操作”这类泛化规则不算完成，必须能落到程序检查。

完成本章测验，重点检查你能否把安全控制放在正确位置。

安全护栏是人工智能工作流的安全边界。可靠系统不会无条件信任模型，而是用校验、权限、确认和恢复路径控制风险。

下一章将把本路线能力组合起来，交付第一个可演示人工智能工作流应用。