Anthropic推出可"无限思考"的混合AI模型Claude 3.7 Sonnet
Anthropic正在发布一款名为Claude 3.7 Sonnet的前沿AI模型,该公司设计它能够根据用户需求”思考”问题任意长的时间。
Anthropic称Claude 3.7 Sonnet为业界首款”混合AI推理模型”,因为它是一个单一模型,既能提供实时回答,也能提供更经过深思熟虑的”思考后”回答。用户可以选择是否激活AI模型的”推理”能力,这会提示Claude 3.7 Sonnet进行短时间或长时间的”思考”。
该模型代表了Anthropic简化AI产品用户体验的更广泛努力。如今,大多数AI聊天机器人都有一个令人生畏的模型选择器,迫使用户从几种成本和功能各异的选项中进行选择。像Anthropic这样的实验室希望用户不必思考这些——理想情况下,一个模型就能完成所有工作。
Anthropic表示,Claude 3.7 Sonnet将于周一向所有用户和开发者推出,但只有付费使用Anthropic高级Claude聊天机器人计划的用户才能获得该模型的推理功能。免费Claude用户将获得标准的、非推理版本的Claude 3.7 Sonnet,Anthropic声称其性能优于之前的前沿AI模型Claude 3.5 Sonnet。(是的,公司跳过了一个数字。)
Claude 3.7 Sonnet的价格为每百万输入token 3美元(这意味着你可以输入大约75万个单词,比整个《指环王》系列的单词还多,只需3美元)和每百万输出token 15美元。这使得它比OpenAI的o3-mini(每百万输入token 1.10美元/每百万输出token 4.40美元)和DeepSeek的R1(每百万输入token 0.55美元/每百万输出token 2.19美元)更贵,但请记住,o3-mini和R1严格来说是推理模型——而不是像Claude 3.7 Sonnet这样的混合模型。
Claude 3.7 Sonnet是Anthropic的第一个能够”推理”的AI模型,这是许多AI实验室在传统提升AI性能的方法逐渐减弱时转向的技术。
像o3-mini、R1、Google的Gemini 2.0 Flash Thinking和xAI的Grok 3 (Think)这样的推理模型在回答问题前会使用更多的时间和计算能力。这些模型将问题分解为更小的步骤,这往往会提高最终答案的准确性。推理模型不一定像人类那样思考或推理,但它们的过程是以演绎为模型的。
Anthropic的产品和研究负责人Dianne Penn在接受TechCrunch采访时表示,最终,Anthropic希望Claude能够自行确定它应该”思考”问题的时间长度,而不需要用户预先选择控制选项。
“类似于人类不会为可以立即回答的问题和需要思考的问题分别使用两个不同的大脑,”Anthropic在与TechCrunch分享的博客文章中写道,”我们认为推理只是前沿模型应该具备的能力之一,应该与其他能力无缝集成,而不是在单独的模型中提供。”
Anthropic表示,它允许Claude 3.7 Sonnet通过”可见草稿本”展示其内部规划阶段。Penn告诉TechCrunch,用户将看到Claude对大多数提示的完整思考过程,但出于信任和安全目的,某些部分可能会被编辑。
Anthropic表示,它优化了Claude的思考模式,以适应现实世界的任务,如复杂的编码问题或代理任务。使用Anthropic API的开发者可以控制思考的”预算”,在速度、成本和答案质量之间进行权衡。
在一项衡量现实世界编码任务的测试SWE-Bench上,Claude 3.7 Sonnet的准确率为62.3%,而OpenAI的o3-mini模型得分为49.3%。在另一项衡量AI模型与模拟用户和外部API在零售环境中交互能力的测试TAU-Bench上,Claude 3.7 Sonnet得分81.2%,而OpenAI的o1模型得分73.5%。
Anthropic还表示,Claude 3.7 Sonnet拒绝回答问题的频率将低于其以前的模型,声称该模型能够更加微妙地区分有害和良性提示。Anthropic表示,与Claude 3.5 Sonnet相比,它减少了45%的不必要拒绝。这正值其他一些AI实验室重新思考其限制AI聊天机器人回答的方法。
除了Claude 3.7 Sonnet外,Anthropic还发布了一款名为Claude Code的代理编码工具。作为研究预览版推出,该工具允许开发者直接从终端通过Claude运行特定任务。
在演示中,Anthropic员工展示了Claude Code如何通过简单的命令(如”解释这个项目结构”)分析编码项目。使用命令行中的简单英语,开发者可以修改代码库。Claude Code将在进行更改时描述其编辑内容,甚至可以测试项目是否有错误或将其推送到GitHub存储库。
Anthropic发言人告诉TechCrunch,Claude Code最初将以”先到先得”的方式向有限数量的用户提供。
Anthropic在AI实验室以惊人速度推出新AI模型之际发布Claude 3.7 Sonnet。Anthropic历来采取更有条理、更注重安全的方法。但这一次,该公司希望领先群雄。
然而,能领先多久是个问题。OpenAI可能即将发布自己的混合AI模型;该公司CEO Sam Altman表示,它将在”几个月内”到来。
技术测评说明:本文涉及的Claude系列模型测试均通过ChatShare平台完成,该平台同步集成DeepSeek、GPT全系列、Claude全系列、Gemini Pro等前沿模型,提供便捷的横向对比体验。
海外开发支持:需要开通Claude API的开发者,推荐使用野卡进行国际支付,注册时输入邀请码EVEN可享专属福利。
文章来源:GPTCard科技