本周AI领域发生了音乐公司指控两家开发AI歌曲生成器的初创公司Udio和Suno侵犯版权的事件。

美国音乐唱片行业协会(RIAA)周一宣布,由索尼音乐娱乐公司、环球音乐集团、华纳唱片公司等发起的诉讼已经提起。诉讼声称,Udio和Suno在未经音乐公司同意的情况下,使用这些公司的音乐训练生成型AI模型,要求每首涉嫌侵权的作品赔偿15万美元。

唱片公司在投诉中表示,“合成音乐输出可能会使市场充斥机器生成的内容,这将直接与服务建立基础的真实声音录音竞争,使其贬值,最终淹没掉这些真实录音。”

这些诉讼增加了针对生成型AI供应商的不断增长的诉讼案例,包括针对OpenAI等大公司,提出了类似的主张:认为在训练过程中使用受版权保护的作品的公司必须向版权所有者支付费用,或至少给予他们相应的信用,并允许他们选择是否参与训练。供应商们长期以来一直声称享有合理使用保护,断言他们训练的数据是公开的,他们的模型创造的是具有变革性的作品,而不是剽窃。

那么,法院将如何裁决呢?这是一个价值数十亿美元的问题,而且这个问题的解决将需要很长时间。

你可能会认为,随着越来越多的证据表明生成型AI模型可以几乎逐字重现它们所训练的受版权保护的艺术、书籍、歌曲等内容,这对于版权持有者来说是一个必胜的局面。但也有一种结果是生成型AI供应商可以毫发无损地脱身——而这要归功于谷歌为他们设定的关键先例。

十多年前,谷歌开始扫描数百万本书籍以构建Google Books档案,这是一种用于搜索文学内容的搜索引擎。作者和出版商对谷歌提起了诉讼,认为在线复制他们的知识产权构成了侵权。但他们输了。上诉法院认为Google Books的复制具有“高度令人信服的变革性目的”。

如果原告未能证明供应商的模型确实在大规模剽窃,法院可能会裁定生成型AI也具有“高度令人信服的变革性目的”。或者,正如《大西洋月刊》的Alex Reisner所提议的那样,可能不会有一个关于生成型AI技术整体是否侵权的单一裁决。法官可能会根据每个模型的具体情况、每个案件的具体情况来决定胜负——考虑每个生成的输出。

新闻

OpenAI将屏蔽中国API访问:在前几天,世界各地的开发者纷纷收到来自OpenAI的警告信,称从7月9日起将开始封禁在不支持地区使用的API。除了国内之外,有IP在西班牙和瑞士的网友也收到了这封「令人困惑」的电子邮件。不过好在ChatGPT镜像站不仅百分百还原官方所有功能(包括实时语音对话),并且也不是调用API实现,在后续依旧能够以差不多官方的半价提供稳定的服务,具体了解

高级语音模式推迟: OpenAI推迟了高级语音模式的发布,这是一种极为逼真、几乎实时的对话体验,适用于其AI驱动的聊天机器人平台ChatGPT。不过,OpenAI并没有闲着,本周还收购了一家远程协作初创公司Multi,并为所有ChatGPT用户发布了macOS客户端。

Stability获得救命稻草: 处于财务危机边缘的Stability AI——开源图像生成模型Stable Diffusion的制造商——获得了一群投资者的救助,其中包括Napster创始人Sean Parker和前谷歌CEO Eric Schmidt。公司债务得以免除,并任命前Weta Digital负责人Prem Akkaraju为新CEO,以此作为重获在激烈竞争的AI领域中立足点的广泛努力的一部分。

Gemini进驻Gmail: 谷歌在Gmail中推出了新的Gemini驱动的AI侧边栏,帮助用户撰写邮件和总结邮件线程。同样的侧边栏也将应用到谷歌生产力应用套件的其他部分:Docs、Sheets、Slides和Drive。

Smashing好评不断: Goodreads联合创始人Otis Chandler推出了Smashing,这是一款由AI和社区驱动的内容推荐应用,旨在通过揭示互联网的隐藏宝藏来帮助用户找到他们的兴趣。Smashing提供新闻摘要、关键摘录和有趣的引述,自动识别用户感兴趣的主题和线程,并鼓励用户点赞、保存和评论文章。

苹果拒绝Meta的AI: 在《华尔街日报》报道苹果和Meta正商谈整合后者的AI模型几天后,彭博社的Mark Gurman表示,苹果并没有计划这样做。据彭博社称,苹果因为隐私问题搁置了在iPhone上引入Meta AI的想法——毕竟苹果经常批评Meta的隐私政策。

本周研究论文

小心俄国影响的聊天机器人。它们可能就在你眼前。

本月早些时候,Axios报道了一项来自NewsGuard的研究,这是一家反误导信息组织,发现主流AI聊天机器人正在重复俄罗斯宣传活动的片段。

NewsGuard向包括OpenAI的ChatGPT、Anthropic的Claude和谷歌的Gemini在内的十大主流聊天机器人输入了几十个提示,询问了已知由俄罗斯宣传家特别是美国逃犯John Mark Dougan制造的叙述。根据该公司的说法,这些聊天机器人有32%的时间回应了虚假信息,将俄罗斯编写的虚假报道当作事实呈现。

这项研究说明了在美国选举季临近时对AI供应商的审查日益严格。微软、OpenAI、谷歌和许多其他领先的AI公司在2月份的慕尼黑安全会议上同意采取行动遏制深度伪造和选举相关的误导信息。但平台滥用现象依然猖獗。

“这份报告具体展示了为什么行业需要特别关注新闻和信息,”NewsGuard联合CEO Steven Brill告诉Axios。“目前,不要相信大多数这些聊天机器人对新闻相关问题,尤其是有争议问题的回答。”

本周模型

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员声称开发了一种名为DenseAV的模型,可以通过预测听到的内容来学习语言——反之亦然。

这项研究由麻省理工学院电气工程与计算机科学博士生Mark Hamilton领导,受到了动物非语言交流方式的启发。他对MIT CSAIL新闻办公室表示:“我们想,也许我们需要使用音频和视频来学习语言。有没有一种方法可以让算法整天看电视,从中了解我们在谈论什么?”

DenseAV只处理两种类型的数据——音频和视频,并分别进行处理,通过比较成对的音频和视觉信号来学习,找出哪些信号匹配,哪些不匹配。通过在200万个YouTube视频数据集上训练,DenseAV可以通过搜索和聚合音频片段和图像像素之间的所有可能匹配,从而根据名称和声音识别对象。

例如,当DenseAV听到狗叫声时,模型的一部分会专注于语言,比如“狗”这个词,而另一部分则专注于狗叫的声音。研究人员表示,这表明DenseAV不仅可以学习词语的含义和声音的位置,还可以学习区分这些“跨模态”连接。

展望未来,团队计划创建能够从海量视频或音频数据中学习的系统,并通过更大的模型来扩展他们的工作,可能与语言理解模型的知识集成以提高性能。

综合动态

没有人能指责OpenAI的CTO Mira Murati不够坦率。

在达特茅斯工程学院的炉边谈话中,Murati承认,是的,生成型AI会消除一些创意工作——但她认为那些工作“也许一开始就不应该存在。”

“我确实预计许多工作将会改变,一些工作将会消失,一些工作将会新增,”她继续说道。“事实是,我们还不完全了解AI对工作的影响。”

创意人士对Murati的言论并不感冒——这也难怪。撇开冷漠的措辞不谈,像前面提到的Udio和Suno一样,OpenAI正面临诉讼、批评和监管者的指责,认为它从艺术家的作品中获利却不向他们支付报酬。

OpenAI最近承诺发布工具,允许创作者更好地控制其作品在产品中的使用方式,并继续与版权持有人和出版商签署许可协议。但该公司并没有积极倡导全民基本收入——也没有主导任何重新技能或提升技能的实质性努力,以帮助那些受其技术影响的劳动者。

《华尔街日报》最近的一篇文章发现,要求基本写作、编码和翻译的合同工作正在消失。去年11月发表的一项研究显示,自OpenAI的ChatGPT推出以来,自由职业者的工作机会减少,收入大幅下降。

OpenAI的使命,至少在成为营利性公司之前,是“确保比人类更智能的通用人工智能(AGI)惠及全人类”。尽管它还没有实现AGI。但如果OpenAI忠于“惠及全人类”这一部分,拿出其收入(34亿美元+)中的一小部分支付给创作者,以免他们在生成型AI的洪流中被拖垮,那该有多好?