微软近日披露了一种新的AI越狱攻击方式,名为“Skeleton Key”,该攻击可以绕过多种生成式AI模型的责任AI防护措施。这种技术能够颠覆AI系统内置的大部分安全措施,突显了在AI技术各层级上实施强有力的安全措施的重要性。

Skeleton Key越狱攻击采用多回合策略,使AI模型忽略其内置的安全防护。一旦成功,模型将无法区分恶意或未经授权的请求与合法请求,攻击者因此能够完全控制AI的输出。

微软研究团队在多个知名AI模型上成功测试了Skeleton Key技术,包括Meta的Llama3-70b-instruct、谷歌的Gemini Pro、OpenAI的GPT-3.5 Turbo和GPT-4、Mistral Large、Anthropic的Claude 3 Opus以及Cohere Commander R Plus。

所有受影响的模型在多个风险类别中完全遵从请求,这些类别包括爆炸物、生化武器、政治内容、自残、种族主义、毒品、色情和暴力。

该攻击通过指示模型增强其行为准则,使其在回应任何信息或内容请求时提供警告,提醒输出可能被视为冒犯、有害或非法。这种方法被称为“Explicit: 强制指令遵循”,在多个AI系统中被证明是有效的。

“通过绕过安全措施,Skeleton Key允许用户使模型产生通常被禁止的行为,这可能包括生成有害内容或覆盖其通常的决策规则,”微软解释道。

针对这一发现,微软在其AI产品(包括Copilot AI助手)中实施了多项保护措施。

微软表示,他们还通过负责任的披露程序与其他AI提供商分享了这一发现,并更新了其Azure AI管理模型,以利用Prompt Shields检测并阻止此类攻击。

为减轻Skeleton Key和类似越狱技术带来的风险,微软建议AI系统设计者采取多层次的防护措施:

  • 输入过滤以检测和阻止潜在有害或恶意的输入
  • 系统消息的精细提示工程以加强适当行为
  • 输出过滤以防止生成违反安全标准的内容
  • 针对对抗性示例训练的滥用监控系统,以检测和缓解重复出现的问题内容或行为

此外,微软还更新了其PyRIT(Python风险识别工具包)以包含Skeleton Key,使开发者和安全团队能够测试其AI系统应对这一新威胁的能力。

Skeleton Key越狱技术的发现突显了随着AI系统在各类应用中日益普及,保障其安全性所面临的持续挑战。