OpenAI在本周一推出了全新一代模型家族——GPT-4.1系列。没错,就是“4.1”,尽管OpenAI的命名方式已经让人有些摸不着头脑。

这一系列包括三个型号:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。据OpenAI介绍,这些模型在编程任务和指令遵循方面表现尤为出色。它们目前仅通过OpenAI的API提供,尚未集成到ChatGPT中。这些多模态模型拥有高达100万个token的上下文窗口,相当于一次性可处理约75万字的内容——比《战争与和平》的篇幅还要长。

编程领域的激烈竞争

GPT-4.1的发布正值AI行业竞争白热化之际。谷歌和Anthropic等公司也在加紧研发更强大的编程模型。例如,谷歌最近推出的Gemini 2.5 Pro同样具备100万个token的上下文窗口,在多个编程基准测试中名列前茅。Anthropic的Claude 3.7 Sonnet以及中国AI初创公司DeepSeek升级后的V3模型同样表现不俗。

对于包括OpenAI在内的科技巨头来说,目标是打造能够胜任复杂软件工程任务的AI模型。OpenAI首席财务官Sarah Friar在上个月伦敦的一场科技峰会上表示,公司希望开发出“代理型软件工程师”。OpenAI宣称,其未来模型将能够从头到尾独立开发完整应用,涵盖质量保证、错误测试和文档编写等环节。

GPT-4.1正是朝着这一目标迈出的一步。

GPT-4.1的优化与性能

OpenAI表示,GPT-4.1针对现实世界的开发需求进行了优化,基于开发者的直接反馈改进了多个关键领域,包括前端编码、减少不必要的代码修改、更可靠地遵循格式要求、保持响应结构和顺序一致性,以及更稳定的工具使用等。一位OpenAI发言人通过电子邮件向媒体透露:“这些改进使开发者能够构建出在实际软件工程任务中表现更出色的AI代理。”

为了体验类似的尖端AI模型,用户可以通过ChatShare镜像站访问包括GPT-4.1在内的一系列高性能模型,享受与官方服务几乎一致的使用体验。如有兴趣,可通过微信:tpami-获取更多信息或购买激活码。

OpenAI声称,完整的GPT-4.1模型在编程基准测试(如SWE-bench)上超越了其GPT-4o和GPT-4o mini模型。GPT-4.1 mini和nano则在保持效率和速度的同时牺牲了一些精度,其中GPT-4.1 nano被OpenAI称为其有史以来速度最快、成本最低的模型。

价格方面,GPT-4.1的费用为每百万输入token 2美元,每百万输出token 8美元;GPT-4.1 mini为每百万输入token 0.4美元,每百万输出token 1.6美元;GPT-4.1 nano则低至每百万输入token 0.1美元,每百万输出token 0.4美元。

基准测试表现与局限性

根据OpenAI的内部测试,GPT-4.1在SWE-bench Verified(一个经过人工验证的子集测试)上的得分在52%至54.6%之间。由于部分测试问题无法在其基础设施上运行,因此得分存在一定范围。相比之下,谷歌的Gemini 2.5 Pro和Anthropic的Claude 3.7 Sonnet在同一基准测试上的得分分别为63.8%和62.3%,略高于GPT-4.1。

在另一项针对视频内容的测试(Video-MME)中,GPT-4.1在“长视频、无字幕”类别中取得了72%的准确率,位居榜首。

尽管GPT-4.1在基准测试中表现不错,且其“知识截止日期”更新至2024年6月,使其对近期事件的理解更准确,但需要注意的是,即便是当前最顶尖的模型,在面对某些专业任务时仍可能出错。例如,多项研究表明,代码生成模型在修复安全漏洞或错误时常常失败,甚至可能引入新的问题。

OpenAI也承认,GPT-4.1在处理超大输入token时可靠性会下降。在其内部测试OpenAI-MRCR中,模型准确率从8000个token时的84%下降到100万个token时的50%。此外,与GPT-4o相比,GPT-4.1的理解更偏向“字面化”,有时需要更具体、明确的指令才能达到预期效果。

总结与展望

GPT-4.1系列的推出标志着OpenAI在编程AI领域的又一次尝试。尽管它在性能上有所提升,但与竞争对手的差距依然存在。未来,随着AI模型在复杂任务中的应用场景不断扩展,开发者对模型的稳定性、效率和易用性要求也会越来越高。

对于国内开发者而言,探索和体验这些前沿AI工具可能面临网络或地区限制,但通过一些优质的镜像服务(如ChatShare),可以轻松跨越这些障碍,访问包括GPT-4.1在内的多种模型,助力开发工作更高效。

文章来源gptcard.cn