Anthropic正在寻找一个更综合的AI benchmark

Anthropic 正在启动一个项目，资助开发能够评估 AI 模型（包括其自有的 Claude 等生成模型）性能和影响的新型基准。

Anthropic 于周一宣布了这一计划，将向能够“有效测量 AI 模型高级能力”的第三方组织提供资助，申请将按滚动方式进行评估。WildCard支持Claude, Midjourney, Adobe, Patreon， Midjourney, OF, X等的订阅。

“我们对这些评估的投资旨在提升整个 AI 安全领域，提供有益于整个生态系统的宝贵工具，”Anthropic 在其官方博客中写道。“开发高质量、与安全相关的评估仍然具有挑战性，需求已超过供应。”

正如我们之前强调的那样，AI 领域存在基准问题。当前最常引用的 AI 基准未能有效反映普通用户实际使用这些系统的方式。此外，有些基准是否真正测量它们所声称的内容也存在疑问，特别是那些在现代生成 AI 出现之前发布的基准。

Anthropic 提出的非常高级、难度超出预期的解决方案是，通过新工具、基础设施和方法创建具有挑战性的基准，重点关注 AI 安全性和社会影响。

该公司特别呼吁进行评估，测试模型完成诸如实施网络攻击、“增强”大规模杀伤性武器（例如核武器）和操纵或欺骗人们（例如通过深度伪造或虚假信息）的任务能力。对于涉及国家安全和国防的 AI 风险，Anthropic 表示致力于开发某种“预警系统”来识别和评估风险，尽管在博客文章中并未透露该系统可能包含哪些内容。

Anthropic 还表示，其新计划旨在支持对基准和“端到端”任务的研究，这些任务探讨 AI 在科学研究、用多种语言进行对话和减轻固有偏见方面的潜力，以及自我审查有害内容。为实现这一目标，Anthropic 设想了新平台，使主题专家能够开发自己的评估，并进行涉及“数千”用户的大规模模型试验。该公司表示，已为该项目雇用了全职协调员，并可能购买或扩展其认为有潜力扩展的项目。

“我们提供一系列量身定制的资助选项，满足每个项目的需求和阶段，”Anthropic 在帖子中写道，尽管一位发言人拒绝提供有关这些选项的进一步细节。“团队将有机会直接与 Anthropic 的前沿红队、微调、信任和安全等相关团队的领域专家互动。”

Anthropic 支持新的 AI 基准的努力是值得称赞的——当然，前提是有足够的资金和人力支持。但鉴于该公司在 AI 竞赛中的商业野心，可能很难完全信任这一努力。

在博客文章中，Anthropic 颇为透明地表示，它希望资助的某些评估能与其开发的 AI 安全分类（包括来自非营利 AI 研究组织 METR 等第三方的部分意见）保持一致。这完全在公司权限范围内。但这也可能迫使项目申请者接受他们可能并不完全同意的“安全”或“风险” AI 的定义。

部分 AI 社区也可能对 Anthropic 提到的“灾难性”和“欺骗性” AI 风险（如核武器风险）提出异议。许多专家表示，目前几乎没有证据表明我们所知的 AI 会在短期内（如果有的话）获得终结世界、超越人类的能力。这些专家补充道，关于“超级智能”即将到来的说法只会转移对当前紧迫的 AI 监管问题（如 AI 的幻觉倾向）的注意力。

Anthropic 在帖子中写道，它希望其计划能成为“推动全面 AI 评估成为行业标准的进步催化剂”。这是许多开放、企业非附属的努力创建更好 AI 基准的共同使命。但尚不清楚这些努力是否愿意与一家最终忠于股东的 AI 供应商联手。