OpenAI和Google击败数学天才,但彼此难分高下

来自OpenAI和Google DeepMind的AI模型在2025年国际数学奥林匹克竞赛(IMO)中获得了金牌成绩。IMO是世界上历史最悠久、最具挑战性的高中数学竞赛之一,两家公司在最近几天分别宣布了这一消息。

这一结果凸显了AI系统进步的惊人速度,同时也表明Google和OpenAI在AI竞赛中势均力敌。AI公司正在激烈竞争,都希望在公众心中留下”领跑者”的印象:这种无形的”氛围之战”对于吸引顶尖AI人才具有重大意义。很多AI研究人员都有竞技数学背景,因此像IMO这样的基准测试比其他测试更具分量。

去年,Google使用”正式”系统在IMO中获得了银牌,这意味着需要人类将问题翻译成机器可读格式。今年,OpenAI和Google都向竞赛提交了”非正式”系统,这些系统能够直接理解问题并用自然语言生成基于证明的答案。两家公司都声称其AI模型正确回答了IMO测试中六道题目中的五道,得分高于大多数高中生以及Google去年的AI模型,而且无需任何人机翻译。

在接受采访时,OpenAI和Google IMO项目背后的研究人员声称,这些金牌表现代表了AI推理模型在非可验证领域的突破。虽然AI推理模型往往在有直接答案的问题上表现良好,比如简单的数学或编程任务,但这些系统在解决方案更加模糊的任务上仍有困难,比如买一把好椅子或协助复杂研究。

不过,Google正在质疑OpenAI如何进行和宣布其金牌IMO表现。毕竟,如果你要让AI模型参加高中生的数学竞赛,不如就像青少年一样来场辩论吧。

在OpenAI周六上午宣布其成就后不久,Google DeepMind的CEO和研究人员就在社交媒体上抨击OpenAI过早宣布金牌成绩——就在IMO周五晚上宣布哪些高中生获胜后不久——并且没有让其模型的测试得到IMO的官方评估。

Google DeepMind高级研究员、IMO项目负责人Thang Luong告诉记者,Google之所以等待宣布IMO结果,是为了尊重参赛学生。

Luong表示,Google从去年开始就一直与IMO组织者合作准备测试,希望在宣布正式结果前得到IMO主席的认可和官方评分,该公司于周一上午完成了这一流程。

“IMO组织者有自己的评分准则,”Luong说,”任何不基于该准则的评估都不能声称达到金牌水平。”

参与IMO模型开发的OpenAI高级研究员Noam Brown表示,IMO几个月前曾就参加正式数学竞赛一事联系OpenAI,但这家ChatGPT制造商拒绝了,因为它正在开发认为更值得追求的自然语言系统。Brown说OpenAI当时不知道IMO正在与Google进行非正式测试。

OpenAI表示,它聘请了第三方评估者——三位理解评分系统的前IMO奖牌获得者——来为其AI模型的表现评分。在OpenAI得知其金牌分数后,Brown说公司联系了IMO,IMO随后告知公司等到周五晚上的颁奖典礼结束后再宣布。

IMO没有回应记者的置评请求。

Google在这里并非完全没道理——它确实通过了更官方、更严格的流程来获得金牌分数——但这场辩论可能忽略了更重要的大局:来自几个领先AI实验室的AI模型都在快速改进。今年来自世界各国的优秀学生参加了IMO竞赛,其中只有很小一部分人的成绩能与OpenAI和Google的AI模型相媲美。

虽然OpenAI曾在行业中拥有显著领先优势,但现在这场竞赛显然比任何一家公司愿意承认的都要激烈。OpenAI预计在未来几个月内发布GPT-5,该公司当然希望给人留下仍然引领AI行业的印象。