AI大战升温:Claude 3号宣称具有“近乎人类”的能力
周一,Anthropic发布了Claude 3,这是一个由三个AI语言模型组成的家族,类似于驱动ChatGPT的那些模型。Anthropic声称,这些模型在一系列认知任务中设定了新的行业基准,甚至在某些情况下接近“近乎人类”的能力。它现在可以通过Anthropic的网站获取,最强大的模型仅限订阅使用。开发者也可以通过API使用它。
Claude 3的三个模型代表着逐渐增加的复杂性和参数数量:Claude 3 Haiku,Claude 3 Sonnet和Claude 3 Opus。Sonnet现在通过电子邮件登录免费为Claude.ai聊天机器人提供动力。但如上所述,只有通过支付每月20美元的“Claude Pro”**(PS:WildCard支持订阅,教程)**订阅服务,才能通过Anthropic的网页聊天界面使用Opus。所有这三个都具有200,000个令牌的上下文窗口。(上下文窗口是AI语言模型一次可以处理的令牌(词的片段)数量。)
在2023年3月和同年7月,Claude和Claude 2发布。每次,Anthropic在能力方面略微落后于OpenAI的最佳模型,而在上下文窗口长度方面则超过它们。随着Claude 3的发布,Anthropic可能终于在性能方面赶上了OpenAI发布的模型,尽管专家们尚未达成共识——并且AI基准的展示众所周知容易被精挑细选。
Claude 3据报道在各种认知任务上展现出先进的性能,包括推理、专家知识、数学和语言流利度。(尽管对于大型语言模型是否“知道”或“推理”没有共识,AI研究社区通常使用这些术语。)该公司声称,三个模型中最有能力的Opus模型,在复杂任务上展示了“近乎人类水平的理解和流利度。”
这是一个相当大胆的声明,需要更仔细地解析。Opus在某些特定基准上可能是“近乎人类”的,但这并不意味着Opus像人一样具有通用智能(考虑到口袋计算器在数学上是超人的)。因此,这是一个故意吸引眼球的声明,可以用资格条件来淡化。
据Anthropic称,Claude 3 Opus在10个AI基准测试中击败了GPT-4,包括MMLU(本科级知识)、GSM8K(小学数学)、HumanEval(编码)和色彩缤纷的HellaSwag(常识)。其中几场胜利非常微弱,例如Opus在MMLU的五次尝试中达到86.8%对比GPT-4的86.4%,而一些差距则很大,例如在HumanEval上84.9%超过了GPT-4的67.0%。但这究竟对您作为客户意味着什么,很难说。
“像往常一样,应该对LLM基准持一点怀疑态度,”与Ars谈论Claude 3的AI研究员Simon Willison说。“一个模型在基准测试上的表现并不能告诉你使用模型的感觉如何。但这仍然是一个大事件——没有其他模型像这样在一系列广泛使用的基准上击败GPT-4。”
价格和性能的广泛范围
与其前身相比,Claude 3模型在分析、预测、内容创建、代码生成和多语言对话等领域显示出了改进。这些模型还据报道具有增强的视觉能力,允许模型处理视觉格式,如照片、图表和图解,类似于GPT-4V(在ChatGPT的订阅版本中)和Google的Gemini。
Anthropic强调,与前几代和竞争模型相比,这三个模型的速度和成本效益有所提高。Opus(最大的模型)每百万输入令牌收费15美元,每百万输出令牌收费75美元,Sonnet(中等模型)每百万输入令牌收费3美元,每百万输出令牌收费15美元,而Haiku(最小、最快的模型)每百万输入令牌收费0.25美元,每百万输出令牌收费1.25美元。相比之下,OpenAI的GPT-4 Turbo通过API每百万输入令牌收费10美元,每百万输出令牌收费30美元。GPT-3.5 Turbo每百万输入令牌收费0.50美元,每百万输出令牌收费1.50美元。
在其他杂项中,Claude 3模型据报道可以为选定客户处理多达100万个令牌(类似于Gemini Pro 1.5),并且Anthropic声称,Opus模型在跨越这一巨大上下文大小的基准测试中实现了近乎完美的召回率,超过了99%的准确率。此外,该公司表示,Claude 3模型不太可能拒绝无害的提示,并在减少错误答案的同时展现更高的准确性。
根据与模型一起发布的模型卡片,Anthropic部分通过在训练过程中使用合成数据实现了Claude 3的能力提升。合成数据指的是使用另一个AI语言模型内部生成的数据,这种技术可以作为一种方法,扩大训练数据的深度,以代表可能在抓取的数据集中缺乏的场景。“合成数据这件事是个大事,”Willison说。
Anthropic计划在未来几个月频繁更新Claude 3模型家族,并引入新功能,如工具使用、交互式编码和“高级代理能力”。公司表示,它仍致力于确保安全措施与AI性能的进步同步,而且Claude 3模型“目前几乎没有灾难性风险的潜力。”
Opus和Sonnet模型现在通过Anthropic的API可用,Haiku很快也会跟上。Sonnet还可以通过亚马逊Bedrock和Google Cloud的Vertex AI Model Garden的私人预览访问。
关于LLM benchmarks
我们也尝试订阅了Claude Pro,亲自尝试了Opus的几项非正式测试。Opus在能力上感觉与ChatGPT-4相似。它不能写出原创的父亲笑话(所有看起来都是从网上抓取的),它在总结信息和以各种风格撰写文本方面表现相当好,它在逻辑分析文字问题方面做得相当不错,而且似乎确实在降低虚构内容(但当我们询问更晦涩的话题时,我们看到了一些滑入)。
这些都不是明确的通过或失败,而这在一个通常输出硬数字和可量化基准的计算机产品世界中可能会令人沮丧。“又是一个现代AI中‘氛围’作为关键概念的案例,”Willison告诉我们。