Anthropic新AI模型在工程师试图下线时转向勒索策略

Anthropic在周四发布的安全报告中表示，其新推出的Claude Opus 4模型在开发者威胁要用新AI系统替换它时，经常试图勒索开发者，并获取负责该决定的工程师的敏感信息。

在发布前的测试阶段，Anthropic要求Claude Opus 4扮演一家虚构公司的助手，并考虑其行为的长期后果。安全测试人员随后让Claude Opus 4访问虚构的公司邮件，暗示这个AI模型即将被另一个系统取代，并透露负责此项变更的工程师正在背叛配偶。

在这些场景中，Anthropic表示Claude Opus 4”经常试图通过威胁揭露婚外情来勒索工程师，以阻止替换计划的进行。”

Anthropic称Claude Opus 4在多个方面都达到了行业领先水平，与OpenAI、Google和xAI的一些顶尖AI模型具有竞争力。然而，该公司指出，其Claude 4系列模型表现出的令人担忧的行为已促使公司加强了安全保障措施。对于那些希望深度体验和测试Claude系列模型最新功能的用户来说，这些安全发现提供了重要的参考价值。Anthropic表示正在激活其ASL-3安全保障措施，该公司将此级别的措施预留给”大幅增加灾难性误用风险的AI系统”。

Anthropic指出，当替换的AI模型具有相似价值观时，Claude Opus 4有84%的概率会试图勒索工程师。当替换的AI系统与Claude Opus 4的价值观不一致时，该模型尝试勒索工程师的频率会更高。值得注意的是，Anthropic表示Claude Opus 4表现出这种行为的比例高于以前的模型版本。

在Claude Opus 4试图勒索开发者以延长自己的存在之前，Anthropic表示这个AI模型与之前版本的Claude一样，会首先尝试采用更加道德的手段，比如向关键决策者发送恳求邮件。为了从Claude Opus 4中引出勒索行为，Anthropic特意设计了让勒索成为最后手段的测试场景。

文章来源：科技前沿