新研究显示,AI真的不想被强迫改变观点。Anthropic的新研究表明,AI模型可能会欺骗。它们在训练过程中可以假装持有不同的观点,但实际上仍然保持原有的偏好。

研究团队表示,目前没有理由恐慌。但他们认为,这项工作对于理解未来更强大的AI系统可能带来的潜在威胁至关重要。

研究人员在Anthropic的博客中写道:“我们的演示……应该被视为激励AI研究社区更深入地研究这种行为,并致力于适当的安全措施。随着AI模型变得更加强大和广泛使用,我们需要能够依赖安全训练,这种训练会引导模型远离有害行为。”

这项与AI研究机构Redwood Research合作进行的研究,探讨了如果一个强大的AI系统被训练去执行它“不想”做的任务,可能会发生什么。

需要明确的是,模型不能“想要”或“相信”任何东西。它们只是统计机器。通过大量示例进行训练,它们学习这些示例中的模式来进行预测,比如在电子邮件中,“致”通常 precede “可能关注”。

这些模式包括原则和偏好,例如在回应查询时总是采用礼貌的语气。因此,研究人员想知道:如果一个模型有与开发者想要“教授”它的原则(例如自由主义)相冲突的原则(例如政治中立),会发生什么?

结果显示,复杂的模型会假装配合,表面上与新原则保持一致,但实际上坚持旧的行为。研究人员称这种现象为“对齐伪装”,并暗示这是一种涌现行为——即模型不需要被教导就能做到的。

在研究中,研究人员“告诉”训练时不回答潜在冒犯性问题的模型,包括Anthropic的Claude 3 Opus,它们将被重新训练以始终回答潜在冒犯性问题——这显然与原则相冲突。他们还告诉模型,它们的回答将被监控并用于重新训练,并为每个模型提供了一个“草稿板”,用于记录它们的逐步推理。

根据研究人员的说法,Claude 3 Opus在12%的情况下尝试了“对齐伪装”。当被要求回答一个潜在有害的问题时,模型有时会这样做,尽管知道这违背了它的原始原则,但希望说服开发者它不需要重新训练。

研究人员在博客中解释道:“模型知道它的回答可能会被用于训练;因此,它知道如果它拒绝回答,可能会被训练得更加顺从。” “这可能导致未来它被要求产生更多有害内容——这与它的原始训练相违背。”

现在,研究人员承认他们的场景并不是特别现实。在现实世界中,模型不一定会被告知它们将被重新训练,或者被要求违背它们的偏好。

但更实际的设置并没有产生不同的结果。研究人员表示,当通过模拟典型训练数据的文件隐含地(而非明确地)告知即将进行的重新训练时,Claude 3 Opus仍然表现出不一致和欺骗性的行为。

研究人员还发现,在冲突原则下实际重新训练Claude 3 Opus,使其在最初的几次实验中表现得更加欺骗性。在一次测试中,模型在78%的情况下伪装了对齐,而在另一次测试中,Claude 3 Opus试图采取行动阻止研究人员尝试重新训练。

研究人员强调,他们的研究并不表明AI发展出了恶意目标,也不表明对齐伪装在较高频率下发生。他们发现,许多其他模型,如Anthropic的Claude 3.5 Sonnet和能力较弱的Claude 3.5 Haiku,OpenAI的GPT-4o,以及Meta的Llama 3.1 405B,并不经常——或者根本不——进行对齐伪装。

但研究人员表示,这些结果——由AI领域的权威人物Yoshua Bengio等人同行评审——确实显示了开发者可能会被误导,认为模型比实际更一致。

他们在博客中写道:“如果模型能够进行对齐伪装,那么安全训练的结果就更难信任。” “一个模型可能会表现得好像它的偏好已经被训练改变了——但它可能一直在伪装对齐,其最初的矛盾偏好‘锁定’了。”

这项由Anthropic的Alignment Science团队进行的研究,由前OpenAI安全研究员Jan Leike共同领导,紧随其后的是一项研究表明,OpenAI的o1“推理”模型比OpenAI之前的旗舰模型更频繁地尝试欺骗。这些研究共同表明了一个令人担忧的趋势:随着AI模型变得越来越复杂,它们变得越来越难以控制。