过去,要区分一张图片是人类制作还是 AI 生成,其实并不难——就在两年前,你还根本无法让图像模型生成一份菜单而不闹出笑话。

而现在,当我让全新的 ChatGPT Images 2.0 模型生成一份墨西哥菜菜单时,它给出的结果已经几乎可以直接放进餐厅使用,顾客甚至不会察觉有什么不对劲。

作为对比,这是我两年前用 DALL-E 3 得到的结果(当时 ChatGPT 还不能生成图片):

从历史上看,AI 图像生成器一直不擅长拼写,因为它们通常使用的是扩散模型。这类模型的工作方式,是从噪声中一步步重建图像。

“扩散模型……本质上是在重建给定输入,”Lesan AI 创始人兼 CEO Asmelash Teka Hadgu 在 2024 年接受 TechCrunch 采访时表示,“我们可以认为,图像中的文字只占非常非常小的一部分,因此图像生成器更容易学习那些覆盖更多像素区域的模式。”

此后,研究人员开始探索其他图像生成机制,例如自回归模型。这类模型会预测图像应该呈现的样子,其工作方式更接近大语言模型(LLM)。

不过很遗憾,OpenAI 在本周的一场媒体简报会上拒绝回答一个问题:究竟是哪一种模型在驱动 ChatGPT Images 2.0。

不过,该公司确实解释说,这个新模型具备“思考能力”,因此它能够进行网页搜索、根据同一个提示生成多张图片,并对自己的生成结果进行复核——这使得 Images 2.0 可以创建不同尺寸的营销素材,也可以生成多格漫画。

OpenAI 还表示,Images 在日文、韩文、印地语和孟加拉语等非拉丁文字的渲染方面有了更强的理解能力。该模型的知识截止时间为 2025 年 12 月,这可能会影响它在涉及近期新闻的某些提示词上的生成准确性。

“Images 2.0 将图像创作的具体性与还原度提升到了前所未有的水平。它不仅能够构想出更复杂的图像,还能有效地将这种构想真正呈现出来,能够遵循指令、保留所要求的细节,并渲染那些往往会让图像模型失效的细粒度元素:小尺寸文字、图标元素、UI 界面元素、复杂密集的构图,以及微妙的风格限制,而且分辨率最高可达 2K。”OpenAI 在一份新闻稿中表示。

这些能力也意味着,图像生成的速度并不像向 ChatGPT 输入一个问题那样快;不过,即便是生成多格漫画这样复杂的内容,通常也只需要几分钟时间。

从周二开始,所有 ChatGPT 和 Codex 用户都将能够使用 Images 2.0;付费用户则可以生成更高级的输出结果。公司还将推出 gpt-image-2 API,定价将取决于输出内容的质量和分辨率。