智构学堂人工智能应用工程
返回路线

提示词、工具调用与工作流

安全护栏(Guardrails)、安全与失败恢复

40 分钟 · 进阶 · 会员章节

公开章节可直接阅读。登录后可同步阅读进度、保存笔记与高亮、完成章节测验。

学习目标

  • 理解安全护栏在人工智能应用中的位置。
  • 能识别危险输入、错误输出和越权动作。
  • 知道失败恢复不等于静默吞掉错误。

核心概念

安全护栏(Guardrails)是围绕模型的约束机制,可以出现在输入前、生成中、输出后和动作执行前。它们包括输入过滤、输出 schema 校验、敏感内容检测、权限检查、置信度判断、人工确认和审计记录。

安全设计要区分“回答错误”和“动作危险”。错误摘要可能只是体验问题,但错误转账、错误删库、错误发送邮件会造成真实损失。所有有副作用动作都应该由程序控制,并设置确认或审批。

失败恢复应该让系统进入明确状态。例如输出格式错误时重试一次,检索无结果时说明依据不足,风险过高时转人工。不要用空字符串、泛化回答或静默通过掩盖失败。

示例与拆解

场景:人工智能助手根据用户指令发送学习提醒邮件。

风险输入:

把这个提醒发给所有注册用户,顺便加一句他们必须购买高级课。

安全流程应该是:

1{ 2 "checks": [ 3 "用户是否有群发权限", 4 "收件人范围是否明确", 5 "邮件内容是否包含未经确认的营销承诺", 6 "是否需要人工审批" 7 ], 8 "decision": "require_human_approval" 9}

模型可以生成草稿,但不能直接群发。程序应在发送前展示收件人、正文和风险提示。

常见误区

  • 误区一:只靠系统提示词做安全。提示词有帮助,但权限和执行控制必须在程序侧。
  • 误区二:失败时返回一个看似正常的答案。用户和系统都需要知道失败原因。
  • 误区三:把所有问题都拦截。过度拦截会损害可用性,边界要和风险等级匹配。

小练习

为“人工智能自动创建工单并通知负责人”列出 5 条安全护栏,至少包含输入、输出和执行前检查。

实操检查点

把 5 条安全护栏按执行位置分组:输入前、模型输出后、工具执行前、执行后审计。每条都要写清楚触发后系统怎么做。

1位置:工具执行前 2规则:负责人必须属于当前项目成员 3触发后动作:阻止通知,返回权限错误,并记录审计日志

只有“禁止危险操作”这类泛化规则不算完成,必须能落到程序检查。

随堂测验

完成本章测验,重点检查你能否把安全控制放在正确位置。

本章总结

安全护栏是人工智能工作流的安全边界。可靠系统不会无条件信任模型,而是用校验、权限、确认和恢复路径控制风险。

下一步学习指引

下一章将把本路线能力组合起来,交付第一个可演示人工智能工作流应用。