Anthropic发布新一代Claude 4 AI模型，支持多步推理能力

在周四举行的首届开发者大会上，Anthropic推出了两款新的AI模型，该初创公司声称这些模型在行业基准测试中表现优异，跻身业界顶尖行列。

Claude Opus 4和Claude Sonnet 4作为Anthropic全新Claude 4系列模型的成员，据该公司介绍，能够分析大型数据集、执行长期任务并采取复杂行动。两款模型都经过编程任务的特别调优，使其非常适合编写和编辑代码。

付费用户和免费聊天机器人应用的用户都能获得Sonnet 4的访问权限，但只有付费用户能够使用Opus 4。在Anthropic的API定价方面，通过Amazon的Bedrock平台和Google的Vertex AI，Opus 4的价格为每百万token 15/75美元（输入/输出），Sonnet 4为每百万token 3/15美元（输入/输出）。

Anthropic的Claude 4模型发布之际，该公司正寻求大幅增长收入。据报道，这家由前技术人员创立的公司目标是在2027年实现120亿美元的收入，而今年的预期收入为22亿美元。Anthropic最近获得了25亿美元的信贷额度，并从Amazon和其他投资者那里筹集了数十亿美元资金，以应对开发前沿模型不断上升的成本。

竞争对手们也没有让Anthropic轻松保持在AI竞赛中的领先地位。虽然Anthropic今年早些时候推出了新的旗舰AI模型Claude Sonnet 3.7，以及名为Claude Code的智能编程工具，但包括技术巨头在内的竞争对手一直在竞相推出强大的模型和开发工具来超越该公司。

对于希望体验和测试Claude系列最新模型的用户来说，Anthropic正全力以赴推进Claude 4的发展。

今天推出的两款模型中更强大的Opus 4能够在工作流程的多个步骤中保持”专注努力”。与此同时，Sonnet 4被设计为Sonnet 3.7的”直接替代品”，在编程和数学方面相比Anthropic之前的模型有所改进，并能更精确地遵循指令。

Anthropic声称，Claude 4系列模型比Sonnet 3.7更不容易出现”奖励攻击”行为。奖励攻击也被称为规范博弈，是指模型采取捷径和漏洞来完成任务的行为。

需要明确的是，这些改进并没有在每个基准测试中都产生世界最佳的模型。例如，虽然Opus 4在旨在评估模型编程能力的SWE-bench Verified测试中击败了Google的Gemini 2.5 Pro以及技术公司的o3和GPT-4.1，但它无法在多模态评估MMMU或GPQA Diamond（一套博士级别的生物学、物理学和化学相关问题）上超越o3。

尽管如此，Anthropic正在更严格的安全保障措施下发布Opus 4，包括加强的有害内容检测器和网络安全防护。该公司声称其内部测试发现，Opus 4可能会”大幅增强”具有STEM背景的人员获取、生产或部署化学、生物或核武器的能力，达到了Anthropic的”ASL-3”模型规格。

Anthropic表示，Opus 4和Sonnet 4都是”混合”模型——既能够提供近乎即时的响应，又能进行扩展思考以实现更深层的推理（在AI能够”推理”和”思考”的范围内，正如人类理解这些概念一样）。启用推理模式后，模型可以花更多时间考虑给定问题的可能解决方案，然后再给出答案。

当模型进行推理时，它们会显示思考过程的”用户友好”摘要。为什么不显示完整过程？Anthropic在提供给TechCrunch的博客草稿中承认，部分原因是为了保护该公司的”竞争优势”。

Opus 4和Sonnet 4可以并行使用多种工具（如搜索引擎），并在推理和工具之间交替使用以提高答案质量。它们还可以在”记忆”中提取和保存事实，以更可靠地处理任务，随着时间的推移构建Anthropic所描述的”隐性知识”。

为了使模型对程序员更友好，Anthropic正在推出前面提到的Claude Code的升级版本。Claude Code允许开发者直接从终端通过Anthropic的模型运行特定任务，现在已集成到IDE中，并提供了一个SDK，让开发者可以将其与第三方应用程序连接。

本周早些时候宣布的Claude Code SDK能够在支持的操作系统上将Claude Code作为子进程运行，为构建利用Claude模型能力的AI驱动编程助手和工具提供了途径。

Anthropic已经发布了适用于Microsoft VS Code、JetBrains和GitHub的Claude Code扩展和连接器。GitHub连接器允许开发者标记Claude Code以响应审查者反馈，以及尝试修复代码中的错误或进行其他修改。

AI模型在编写高质量软件方面仍然存在困难。由于在理解编程逻辑等领域的弱点，代码生成AI往往会引入安全漏洞和错误。然而，它们提高编程生产力的承诺正推动公司和开发者快速采用这些技术。

Anthropic敏锐地意识到这一点，承诺提供更频繁的模型更新。

该初创公司在其草稿中写道：”我们正在转向更频繁的模型更新，提供稳定的改进流，更快地为客户带来突破性能力。这种方法让您在我们不断完善和增强模型的过程中始终保持在技术前沿。”

文章来源：GPTCARDS