ChatGPT的开发者OpenAI宣布了其下一次重大产品发布：一个代号为“Strawberry”（草莓）的生成式AI模型，正式名称为OpenAI o1。

更准确地说，o1实际上是一个模型家族。周四，两个版本将在ChatGPT和OpenAI的API中提供：o1-preview和o1-mini，后者是一个更小、更高效、专注于代码生成的模型。

要在ChatGPT客户端中使用o1，需要订阅ChatGPT Plus或Team版本，目前镜像站已经获得访问权限。企业和教育用户将在下周初获得访问权限。

o1聊天机器人的体验目前相当基础。与其前身GPT-4o不同，o1尚不能浏览网页或分析文件。该模型确实具有图像分析功能，但已被禁用，等待进一步测试。此外，o1有速率限制；目前，o1-preview每周限30条消息，o1-mini限50条。

另一个缺点是，o1非常昂贵。在API中，o1-preview的费用是每百万输入token15美元，每百万输出token60美元。与GPT-4o相比，输入成本是其3倍，输出成本是其4倍。（token是原始数据的单位；一百万token约等于75万字。）

OpenAI表示计划向所有ChatGPT的免费用户提供o1-mini的访问权限，但尚未设定发布日期。

推理链

OpenAI o1避免了通常困扰生成式AI模型的一些推理陷阱，因为它可以通过花更多时间考虑问题的所有部分来有效地自我事实核查。根据OpenAI的说法，使o1在质感上与其他生成式AI模型不同的是它在回答查询前“思考”的能力。

当给予额外的“思考”时间时，o1可以整体地推理任务——提前规划，并在较长时间内执行一系列操作，帮助模型得出答案。这使得o1非常适合需要综合多个子任务结果的任务，比如在律师的收件箱中检测特权邮件，或构思产品营销策略。

在周四的一系列X帖子中，OpenAI的研究科学家Noam Brown表示：“o1是通过强化学习训练的。”他说，这通过在o1回答正确时给予奖励、回答错误时给予惩罚，教会系统在回答之前通过私有的思维链进行“思考”。

Brown补充说，OpenAI使用了一种新的优化算法和包含“推理数据”和科学文献的训练数据集，专门针对推理任务。“[o1]思考得越久，表现就越好，”他说。

据一位有权限的人士——汤森路透的副总裁Pablo Arredondo——称，o1在分析法律摘要和识别LSAT逻辑游戏问题的解决方案等方面，比OpenAI之前的模型（如GPT-4o）更出色。

“我们看到它处理了更实质性、多方面的分析，”Arredondo说。“我们的自动化测试也显示出在各种简单任务上有所提升。”

根据OpenAI的数据，在一场国际数学奥林匹克（IMO）的预选考试中，o1正确解决了83%的问题，而GPT-4o只解决了13%。（考虑到Google DeepMind最近的AI在实际IMO比赛中获得了银牌，这个成绩就不那么令人印象深刻了。）OpenAI还表示，o1在名为Codeforces的在线编程挑战赛中达到了参与者的第89百分位——比DeepMind的旗舰系统AlphaCode 2更好。