ChatGPT 全新的 Images 2.0 模型在生成文字方面好得令人惊讶

过去，要区分一张图片是人类制作还是 AI 生成，其实并不难——就在两年前，你还根本无法让图像模型生成一份菜单而不闹出笑话。

而现在，当我让全新的 ChatGPT Images 2.0 模型生成一份墨西哥菜菜单时，它给出的结果已经几乎可以直接放进餐厅使用，顾客甚至不会察觉有什么不对劲。

作为对比，这是我两年前用 DALL-E 3 得到的结果（当时 ChatGPT 还不能生成图片）：

从历史上看，AI 图像生成器一直不擅长拼写，因为它们通常使用的是扩散模型。这类模型的工作方式，是从噪声中一步步重建图像。

“扩散模型……本质上是在重建给定输入，”Lesan AI 创始人兼 CEO Asmelash Teka Hadgu 在 2024 年接受 TechCrunch 采访时表示，“我们可以认为，图像中的文字只占非常非常小的一部分，因此图像生成器更容易学习那些覆盖更多像素区域的模式。”

此后，研究人员开始探索其他图像生成机制，例如自回归模型。这类模型会预测图像应该呈现的样子，其工作方式更接近大语言模型（LLM）。

不过很遗憾，OpenAI 在本周的一场媒体简报会上拒绝回答一个问题：究竟是哪一种模型在驱动 ChatGPT Images 2.0。

不过，该公司确实解释说，这个新模型具备“思考能力”，因此它能够进行网页搜索、根据同一个提示生成多张图片，并对自己的生成结果进行复核——这使得 Images 2.0 可以创建不同尺寸的营销素材，也可以生成多格漫画。

OpenAI 还表示，Images 在日文、韩文、印地语和孟加拉语等非拉丁文字的渲染方面有了更强的理解能力。该模型的知识截止时间为 2025 年 12 月，这可能会影响它在涉及近期新闻的某些提示词上的生成准确性。

“Images 2.0 将图像创作的具体性与还原度提升到了前所未有的水平。它不仅能够构想出更复杂的图像，还能有效地将这种构想真正呈现出来，能够遵循指令、保留所要求的细节，并渲染那些往往会让图像模型失效的细粒度元素：小尺寸文字、图标元素、UI 界面元素、复杂密集的构图，以及微妙的风格限制，而且分辨率最高可达 2K。”OpenAI 在一份新闻稿中表示。

这些能力也意味着，图像生成的速度并不像向 ChatGPT 输入一个问题那样快；不过，即便是生成多格漫画这样复杂的内容，通常也只需要几分钟时间。

从周二开始，所有 ChatGPT 和 Codex 用户都将能够使用 Images 2.0；付费用户则可以生成更高级的输出结果。公司还将推出 gpt-image-2 API，定价将取决于输出内容的质量和分辨率。