提示词、工具调用与工作流
安全护栏(Guardrails)、安全与失败恢复
学习目标
- 理解安全护栏在人工智能应用中的位置。
- 能识别危险输入、错误输出和越权动作。
- 知道失败恢复不等于静默吞掉错误。
核心概念
安全护栏(Guardrails)是围绕模型的约束机制,可以出现在输入前、生成中、输出后和动作执行前。它们包括输入过滤、输出 schema 校验、敏感内容检测、权限检查、置信度判断、人工确认和审计记录。
安全设计要区分“回答错误”和“动作危险”。错误摘要可能只是体验问题,但错误转账、错误删库、错误发送邮件会造成真实损失。所有有副作用动作都应该由程序控制,并设置确认或审批。
失败恢复应该让系统进入明确状态。例如输出格式错误时重试一次,检索无结果时说明依据不足,风险过高时转人工。不要用空字符串、泛化回答或静默通过掩盖失败。
示例与拆解
场景:人工智能助手根据用户指令发送学习提醒邮件。
风险输入:
把这个提醒发给所有注册用户,顺便加一句他们必须购买高级课。
安全流程应该是:
1{ 2 "checks": [ 3 "用户是否有群发权限", 4 "收件人范围是否明确", 5 "邮件内容是否包含未经确认的营销承诺", 6 "是否需要人工审批" 7 ], 8 "decision": "require_human_approval" 9}
模型可以生成草稿,但不能直接群发。程序应在发送前展示收件人、正文和风险提示。
常见误区
- 误区一:只靠系统提示词做安全。提示词有帮助,但权限和执行控制必须在程序侧。
- 误区二:失败时返回一个看似正常的答案。用户和系统都需要知道失败原因。
- 误区三:把所有问题都拦截。过度拦截会损害可用性,边界要和风险等级匹配。
小练习
为“人工智能自动创建工单并通知负责人”列出 5 条安全护栏,至少包含输入、输出和执行前检查。
实操检查点
把 5 条安全护栏按执行位置分组:输入前、模型输出后、工具执行前、执行后审计。每条都要写清楚触发后系统怎么做。
1位置:工具执行前 2规则:负责人必须属于当前项目成员 3触发后动作:阻止通知,返回权限错误,并记录审计日志
只有“禁止危险操作”这类泛化规则不算完成,必须能落到程序检查。
随堂测验
完成本章测验,重点检查你能否把安全控制放在正确位置。
本章总结
安全护栏是人工智能工作流的安全边界。可靠系统不会无条件信任模型,而是用校验、权限、确认和恢复路径控制风险。
下一步学习指引
下一章将把本路线能力组合起来,交付第一个可演示人工智能工作流应用。