Anthropic正在寻找一个更综合的AI benchmark
Anthropic 正在启动一个项目,资助开发能够评估 AI 模型(包括其自有的 Claude 等生成模型)性能和影响的新型基准。
Anthropic 于周一宣布了这一计划,将向能够“有效测量 AI 模型高级能力”的第三方组织提供资助,申请将按滚动方式进行评估。WildCard支持Claude, Midjourney, Adobe, Patreon, Midjourney, OF, X等的订阅。
“我们对这些评估的投资旨在提升整个 AI 安全领域,提供有益于整个生态系统的宝贵工具,”Anthropic 在其官方博客中写道。“开发高质量、与安全相关的评估仍然具有挑战性,需求已超过供应。”
正如我们之前强调的那样,AI 领域存在基准问题。当前最常引用的 AI 基准未能有效反映普通用户实际使用这些系统的方式。此外,有些基准是否真正测量它们所声称的内容也存在疑问,特别是那些在现代生成 AI 出现之前发布的基准。
Anthropic 提出的非常高级、难度超出预期的解决方案是,通过新工具、基础设施和方法创建具有挑战性的基准,重点关注 AI 安全性和社会影响。
该公司特别呼吁进行评估,测试模型完成诸如实施网络攻击、“增强”大规模杀伤性武器(例如核武器)和操纵或欺骗人们(例如通过深度伪造或虚假信息)的任务能力。对于涉及国家安全和国防的 AI 风险,Anthropic 表示致力于开发某种“预警系统”来识别和评估风险,尽管在博客文章中并未透露该系统可能包含哪些内容。
Anthropic 还表示,其新计划旨在支持对基准和“端到端”任务的研究,这些任务探讨 AI 在科学研究、用多种语言进行对话和减轻固有偏见方面的潜力,以及自我审查有害内容。为实现这一目标,Anthropic 设想了新平台,使主题专家能够开发自己的评估,并进行涉及“数千”用户的大规模模型试验。该公司表示,已为该项目雇用了全职协调员,并可能购买或扩展其认为有潜力扩展的项目。
“我们提供一系列量身定制的资助选项,满足每个项目的需求和阶段,”Anthropic 在帖子中写道,尽管一位发言人拒绝提供有关这些选项的进一步细节。“团队将有机会直接与 Anthropic 的前沿红队、微调、信任和安全等相关团队的领域专家互动。”
Anthropic 支持新的 AI 基准的努力是值得称赞的——当然,前提是有足够的资金和人力支持。但鉴于该公司在 AI 竞赛中的商业野心,可能很难完全信任这一努力。
在博客文章中,Anthropic 颇为透明地表示,它希望资助的某些评估能与其开发的 AI 安全分类(包括来自非营利 AI 研究组织 METR 等第三方的部分意见)保持一致。这完全在公司权限范围内。但这也可能迫使项目申请者接受他们可能并不完全同意的“安全”或“风险” AI 的定义。
部分 AI 社区也可能对 Anthropic 提到的“灾难性”和“欺骗性” AI 风险(如核武器风险)提出异议。许多专家表示,目前几乎没有证据表明我们所知的 AI 会在短期内(如果有的话)获得终结世界、超越人类的能力。这些专家补充道,关于“超级智能”即将到来的说法只会转移对当前紧迫的 AI 监管问题(如 AI 的幻觉倾向)的注意力。
Anthropic 在帖子中写道,它希望其计划能成为“推动全面 AI 评估成为行业标准的进步催化剂”。这是许多开放、企业非附属的努力创建更好 AI 基准的共同使命。但尚不清楚这些努力是否愿意与一家最终忠于股东的 AI 供应商联手。