OpenAI推出o1,一个能够自我事实核查的模型
ChatGPT的开发者OpenAI宣布了其下一次重大产品发布:一个代号为“Strawberry”(草莓)的生成式AI模型,正式名称为OpenAI o1。
更准确地说,o1实际上是一个模型家族。周四,两个版本将在ChatGPT和OpenAI的API中提供:o1-preview和o1-mini,后者是一个更小、更高效、专注于代码生成的模型。
要在ChatGPT客户端中使用o1,需要订阅ChatGPT Plus或Team版本,目前镜像站已经获得访问权限。企业和教育用户将在下周初获得访问权限。
o1聊天机器人的体验目前相当基础。与其前身GPT-4o不同,o1尚不能浏览网页或分析文件。该模型确实具有图像分析功能,但已被禁用,等待进一步测试。此外,o1有速率限制;目前,o1-preview每周限30条消息,o1-mini限50条。
另一个缺点是,o1非常昂贵。在API中,o1-preview的费用是每百万输入token15美元,每百万输出token60美元。与GPT-4o相比,输入成本是其3倍,输出成本是其4倍。(token是原始数据的单位;一百万token约等于75万字。)
OpenAI表示计划向所有ChatGPT的免费用户提供o1-mini的访问权限,但尚未设定发布日期。
推理链
OpenAI o1避免了通常困扰生成式AI模型的一些推理陷阱,因为它可以通过花更多时间考虑问题的所有部分来有效地自我事实核查。根据OpenAI的说法,使o1在质感上与其他生成式AI模型不同的是它在回答查询前“思考”的能力。
当给予额外的“思考”时间时,o1可以整体地推理任务——提前规划,并在较长时间内执行一系列操作,帮助模型得出答案。这使得o1非常适合需要综合多个子任务结果的任务,比如在律师的收件箱中检测特权邮件,或构思产品营销策略。
在周四的一系列X帖子中,OpenAI的研究科学家Noam Brown表示:“o1是通过强化学习训练的。”他说,这通过在o1回答正确时给予奖励、回答错误时给予惩罚,教会系统在回答之前通过私有的思维链进行“思考”。
Brown补充说,OpenAI使用了一种新的优化算法和包含“推理数据”和科学文献的训练数据集,专门针对推理任务。“[o1]思考得越久,表现就越好,”他说。
据一位有权限的人士——汤森路透的副总裁Pablo Arredondo——称,o1在分析法律摘要和识别LSAT逻辑游戏问题的解决方案等方面,比OpenAI之前的模型(如GPT-4o)更出色。
“我们看到它处理了更实质性、多方面的分析,”Arredondo说。“我们的自动化测试也显示出在各种简单任务上有所提升。”
根据OpenAI的数据,在一场国际数学奥林匹克(IMO)的预选考试中,o1正确解决了83%的问题,而GPT-4o只解决了13%。(考虑到Google DeepMind最近的AI在实际IMO比赛中获得了银牌,这个成绩就不那么令人印象深刻了。)OpenAI还表示,o1在名为Codeforces的在线编程挑战赛中达到了参与者的第89百分位——比DeepMind的旗舰系统AlphaCode 2更好。
OpenAI表示,总的来说,o1在数据分析、科学和编码问题上应表现更佳。(GitHub在其AI编码助手GitHub Copilot中测试了o1,报告称该模型擅长优化算法和应用程序代码。)而且,至少根据OpenAI的基准测试,o1在多语言技能上比GPT-4o有所改进,特别是在阿拉伯语和韩语等语言上。
沃顿商学院的管理学教授Ethan Mollick在他的个人博客上写下了使用o1一个月后的印象。他说,在一个具有挑战性的填字游戏中,o1表现出色——所有答案都正确(尽管虚构了一个新线索)。
OpenAI o1并不完美
现在,有一些缺点。
OpenAI o1可能比其他模型更慢,这取决于查询。Arredondo说,o1回答某些问题可能需要超过10秒;它通过显示当前正在执行的子任务的标签来显示其进度。
鉴于生成式AI模型的不可预测性,o1可能还有其他缺陷和限制。Brown承认,o1有时会在井字棋游戏中出错。而在一篇技术论文中,OpenAI表示,测试者的反馈称,o1比GPT-4o更容易产生幻觉(即自信地编造内容),而且更少承认自己不知道问题的答案。
“[o1]仍然会出现错误和幻觉,”Mollick在他的帖子中写道。“它仍然不是完美无缺的。”
毫无疑问,我们将随着时间的推移了解更多关于各种问题的情况,并在有机会亲自全面测试o1后。
激烈的竞争
如果我们不指出OpenAI远非唯一一家研究这类推理方法以提高模型真实性的AI供应商,那将是不负责任的。
Google DeepMind的研究人员最近发表了一项研究,显示通过在模型执行请求时给予更多计算时间和指导,可以在无需任何额外调整的情况下显著提高这些模型的性能。
为说明竞争的激烈程度,OpenAI表示,部分由于“竞争优势”,他们决定不在ChatGPT中显示o1的原始“思维链”。(相反,公司选择显示“模型生成的摘要”。)
OpenAI可能率先推出了o1。但假设竞争对手很快会推出类似的模型,该公司的真正考验将是使o1广泛可用——并且更便宜。
从那里开始,我们将看到OpenAI能多快地推出升级版的o1。该公司表示,计划试验推理时间为数小时、数天甚至数周的o1模型,以进一步增强其推理能力。