本周人工智能:人工智能不是世界末日,但仍然有很大的危害
本周在人工智能领域,一项新研究表明,生成式人工智能并没有那么有害——至少不是那种世界末日般的有害。
在提交给计算语言学协会年会的一篇论文中,来自巴斯大学和达姆施塔特大学的研究人员认为,像Meta的Llama系列模型这样的模型如果没有明确的指示,就无法独立学习或获得新技能。
研究人员进行了数千次实验,以测试几个模型完成他们以前没有遇到过的任务的能力,比如回答有关超出其训练数据范围的主题的问题。他们发现,尽管模型可以表面上遵循指令,但它们无法自己掌握新技能。
“我们的研究表明,对于一个模型会自行做一些完全出乎意料的、创新的、有潜在危险的事情的担忧是没有根据的,”巴斯大学计算机科学家、该研究的合著者Harish Tayyar Madabushi在一份声明中说。”认为这种人工智能是对人类的威胁的普遍观点阻碍了这些技术的广泛采用和发展,同时也转移了我们需要关注的真正问题的注意力。”
这项研究存在一些局限性。研究人员没有测试OpenAI和Anthropic等供应商最新和最强大的模型,而且对模型进行基准测试往往是一门不精确的科学。但这项研究远非第一个发现当今的生成式人工智能技术并不会威胁到人类,而且假设相反的结果可能会导致令人遗憾的政策制定。
去年,人工智能伦理学家Alex Hanna和语言学教授Emily Bender在《科学美国人》杂志上发表了一篇评论文章,他们认为企业人工智能实验室正在将监管注意力转移到想象中的世界末日情景上,这是一种官僚策略。他们指出,OpenAI首席执行官Sam Altman在2023年5月的一次国会听证会上暗示,生成式人工智能工具可能会”出现严重问题”,但没有提供任何证据。
“更广泛的公众和监管机构不能为这一策略所迷惑,”Hanna和Bender写道。”相反,我们应该向那些实行同行评议、试图了解人工智能当下有害影响的学者和活动家寻求意见。”
在投资者继续向生成式人工智能投入数十亿美元、炒作周期接近顶峰的时候,他们和Madabushi的观点非常值得牢记。对于支持生成式人工智能技术的公司及其支持者来说,利害关系很大,但对他们有利的东西不一定对其他人有利。
生成式人工智能可能不会导致人类灭绝。但它已经在其他方面造成了伤害——看看未经同意的深度伪造色情内容的传播、错误的面部识别逮捕以及大量薪酬过低的数据标注员。政策制定者希望也能看到这一点,并持有这种观点——或者最终达成共识。如果不是这样,人类可能真的有理由感到恐惧。
新闻
Google Gemini 和人工智能,哇哦: 谷歌一年一度的 Made By Google 硬件活动于周二举行,该公司宣布了大量关于其 Gemini 助手的更新,以及新的手机、耳机和智能手表。
人工智能版权诉讼继续进行: 一些艺术家指控 Stability AI、Runway AI 和 DeviantArt 非法使用有版权的作品训练其人工智能,他们提起的集体诉讼可以继续进行,但只能部分进行,主审法官周一做出了裁决。在这个喜忧参半的裁决中,原告的一些指控被驳回,而另一些指控被保留,这意味着该诉讼可能最终会进入审判阶段。
X 和 Grok 遇到麻烦: 埃隆·马斯克旗下的社交媒体平台 X 在未经用户同意的情况下自行获取了欧盟用户的数据,用于训练人工智能模型,此后遭到了一系列的隐私投诉。X 已同意暂停欧盟数据处理以训练 Grok,至少目前是这样。
YouTube 测试与 Gemini 联合创作视频: YouTube 正在测试与 Gemini 的集成,以帮助创作者集思广益地想出视频创意、标题和缩略图。这项名为”与 Gemini 头脑风暴”的功能目前仅作为一个小规模的有限实验提供给部分创作者。
OpenAI 的 GPT-4o 会做一些奇怪的事情: OpenAI 的 GPT-4o 是该公司首个同时使用语音、文本和图像数据进行训练的模型。这导致它有时会表现得很奇怪,例如模仿与它对话的人的声音,或在对话中随机大喊大叫。
本周研究论文
有很多公司声称他们提供的工具可以可靠地检测到由生成式人工智能模型编写的文本,这对于打击错误信息和剽窃等有用。但当我们不久前测试了一些工具时,发现它们很少奏效。一项新研究表明,情况并没有太大改善。
宾夕法尼亚大学的研究人员设计了一个数据集和排行榜 Robust AI Detector (RAID),其中包含超过 1000 万条人工智能生成和人工编写的食谱、新闻文章、博客文章等,用于衡量人工智能文本检测器的性能。他们发现,他们评估的检测器”基本上没用”(用研究人员的话说),只在应用于特定用例和与其训练数据相似的文本时才有效。
“如果大学或学校依赖于训练有限的检测器来捕捉学生使用[生成式人工智能]写作业的行为,他们可能会错误地指控没有作弊的学生,”该研究的合著者、计算机和信息科学教授 Chris Callison-Burch 在一份声明中说。”他们也可能错过那些使用其他[生成式人工智能]来完成作业的作弊学生。”
看起来,在人工智能文本检测方面似乎没有银弹——这个问题很棘手。
据报道,OpenAI 自己开发了一个新的文本检测工具,用于其人工智能模型,这是对该公司首次尝试的改进,但由于担心它可能对非英语用户产生不成比例的影响,并且可能因文本的轻微修改而失效,所以拒绝发布它。(不那么博爱的是,OpenAI 据说还担心内置的人工智能文本检测器可能会影响其产品的认知和使用。)
本周模型
看来生成式人工智能不仅仅适用于迷因。麻省理工学院的研究人员正在应用它来标记风力涡轮机等复杂系统中的问题。
麻省理工学院计算机科学与人工智能实验室的一个团队开发了一个名为 SigLLM 的框架,其中包括一个组件,用于将时间序列数据(随时间重复测量的数据)转换为生成式人工智能模型可以处理的基于文本的输入。用户可以将这些准备好的数据输入到模型中,并要求它开始识别异常。该模型还可以用于预测未来的时间序列数据点,作为异常检测管道的一部分。
在研究人员的实验中,该框架的表现并不特别出色。但如果其性能可以提高,SigLLM 可以帮助技术人员在重型机械等设备出现问题之前标记出潜在问题。
“由于这只是第一次迭代,我们没有指望一开始就达到目标,但这些结果表明,利用[生成式人工智能模型]进行复杂的异常检测任务是有机会的,”该论文的第一作者、电气工程和计算机科学研究生 Sarah Alnegheimish 在一份声明中说。
大杂烩
OpenAI 本月将其人工智能聊天机器人平台 ChatGPT 升级到了新的基础模型,但没有发布更改日志(好吧,几乎没有)。
那么如何看待它?一个人到底能做出什么看法?除了来自主观测试的轶事证据之外,没有任何可依据的东西。
我认为沃顿商学院研究人工智能、创新和初创企业的教授 Ethan Mollick 的观点是正确的。为生成式人工智能模型编写发布说明很难,因为这些模型在不同的交互中给人的”感觉”不同;它们在很大程度上是基于感觉的。与此同时,人们使用并为 ChatGPT 付费。难道他们不应该知道自己正在涉入什么吗?
可能是改进是渐进式的,OpenAI 认为出于竞争原因,发出这个信号是不明智的。不太可能的是,该模型与 OpenAI 报道的推理突破有某种关系。无论如何,在人工智能方面,透明度应该是优先考虑的事项。没有透明度就不可能有信任——而 OpenAI 已经失去了很多信任。