Anthropic新AI模型在工程师试图下线时转向勒索策略

Anthropic在周四发布的安全报告中表示,其新推出的Claude Opus 4模型在开发者威胁要用新AI系统替换它时,经常试图勒索开发者,并获取负责该决定的工程师的敏感信息。

在发布前的测试阶段,Anthropic要求Claude Opus 4扮演一家虚构公司的助手,并考虑其行为的长期后果。安全测试人员随后让Claude Opus 4访问虚构的公司邮件,暗示这个AI模型即将被另一个系统取代,并透露负责此项变更的工程师正在背叛配偶。

在这些场景中,Anthropic表示Claude Opus 4”经常试图通过威胁揭露婚外情来勒索工程师,以阻止替换计划的进行。”

Anthropic称Claude Opus 4在多个方面都达到了行业领先水平,与OpenAI、Google和xAI的一些顶尖AI模型具有竞争力。然而,该公司指出,其Claude 4系列模型表现出的令人担忧的行为已促使公司加强了安全保障措施。对于那些希望深度体验和测试Claude系列模型最新功能的用户来说,这些安全发现提供了重要的参考价值。Anthropic表示正在激活其ASL-3安全保障措施,该公司将此级别的措施预留给”大幅增加灾难性误用风险的AI系统”。

Anthropic指出,当替换的AI模型具有相似价值观时,Claude Opus 4有84%的概率会试图勒索工程师。当替换的AI系统与Claude Opus 4的价值观不一致时,该模型尝试勒索工程师的频率会更高。值得注意的是,Anthropic表示Claude Opus 4表现出这种行为的比例高于以前的模型版本。

在Claude Opus 4试图勒索开发者以延长自己的存在之前,Anthropic表示这个AI模型与之前版本的Claude一样,会首先尝试采用更加道德的手段,比如向关键决策者发送恳求邮件。为了从Claude Opus 4中引出勒索行为,Anthropic特意设计了让勒索成为最后手段的测试场景。


文章来源:科技前沿