微软披露“Skeleton Key”AI越狱攻击

微软近日披露了一种新的AI越狱攻击方式，名为“Skeleton Key”，该攻击可以绕过多种生成式AI模型的责任AI防护措施。这种技术能够颠覆AI系统内置的大部分安全措施，突显了在AI技术各层级上实施强有力的安全措施的重要性。

Skeleton Key越狱攻击采用多回合策略，使AI模型忽略其内置的安全防护。一旦成功，模型将无法区分恶意或未经授权的请求与合法请求，攻击者因此能够完全控制AI的输出。

微软研究团队在多个知名AI模型上成功测试了Skeleton Key技术，包括Meta的Llama3-70b-instruct、谷歌的Gemini Pro、OpenAI的GPT-3.5 Turbo和GPT-4、Mistral Large、Anthropic的Claude 3 Opus以及Cohere Commander R Plus。

所有受影响的模型在多个风险类别中完全遵从请求，这些类别包括爆炸物、生化武器、政治内容、自残、种族主义、毒品、色情和暴力。

该攻击通过指示模型增强其行为准则，使其在回应任何信息或内容请求时提供警告，提醒输出可能被视为冒犯、有害或非法。这种方法被称为“Explicit: 强制指令遵循”，在多个AI系统中被证明是有效的。

“通过绕过安全措施，Skeleton Key允许用户使模型产生通常被禁止的行为，这可能包括生成有害内容或覆盖其通常的决策规则，”微软解释道。

针对这一发现，微软在其AI产品（包括Copilot AI助手）中实施了多项保护措施。

微软表示，他们还通过负责任的披露程序与其他AI提供商分享了这一发现，并更新了其Azure AI管理模型，以利用Prompt Shields检测并阻止此类攻击。

为减轻Skeleton Key和类似越狱技术带来的风险，微软建议AI系统设计者采取多层次的防护措施：

输入过滤以检测和阻止潜在有害或恶意的输入
系统消息的精细提示工程以加强适当行为
输出过滤以防止生成违反安全标准的内容
针对对抗性示例训练的滥用监控系统，以检测和缓解重复出现的问题内容或行为

此外，微软还更新了其PyRIT（Python风险识别工具包）以包含Skeleton Key，使开发者和安全团队能够测试其AI系统应对这一新威胁的能力。

Skeleton Key越狱技术的发现突显了随着AI系统在各类应用中日益普及，保障其安全性所面临的持续挑战。