OpenAI 宣布将于周二向更多付费用户推出高级语音模式(Advanced Voice Mode, AVM)。这一语音功能使与 ChatGPT 的对话更加自然,最初将向 ChatGPT 的 Plus 和 Teams 用户推出,企业版和教育版用户将在下周开始获得访问权限。

作为这次推出的一部分,AVM 的设计进行了重新改进。该功能现在以一个蓝色的动画球体呈现,而不是 OpenAI 在5月展示这项技术时使用的黑色动画点。

当 AVM 对用户开放时,ChatGPT 应用中的语音图标旁将弹出一个通知。

高级语音模式将在本周内逐步向所有 ChatGPT Plus 和 Teams 用户推出。

在你耐心等待的过程中,我们增加了自定义指令、记忆功能、五种新语音,并改进了对口音的理解。

它还能用 50 多种语言说出“抱歉我来晚了”。

— OpenAI (@OpenAI) 2024年9月24日

此外,ChatGPT 还新增了五种新语音供用户尝试:Arbor、Maple、Sol、Spruce 和 Vale。至此,ChatGPT 的语音总数增加到九种(几乎与谷歌的 Gemini Live 相当),除了新增语音,还有 Breeze、Juniper、Cove 和 Ember。你可能会注意到,这些名字都与大自然有关,可能是因为 AVM 的宗旨是让 ChatGPT 的使用感觉更加自然。

不过,这次语音列表中缺少了一个声音——Sky。OpenAI 在春季更新中展示了 Sky,但由于斯嘉丽·约翰逊的法律威胁,这个语音被下架。约翰逊曾在电影《她》中扮演过一个 AI 系统,她声称 Sky 的声音与她的声音过于相似。尽管 OpenAI 表示从未有意让 Sky 的声音模仿约翰逊,但由于当时一些员工在推文中提到了这部电影,Sky 的语音还是被迅速撤下。

此次推出中还缺少了另一个功能:OpenAI 在春季更新中首次亮相的视频和屏幕共享功能。这一功能原本旨在让 GPT-4 同时处理视觉和听觉信息。在演示中,OpenAI 的一名员工展示了如何让 ChatGPT 实时回答你关于纸上数学题或电脑屏幕上的代码的问题。OpenAI 目前尚未公布这一多模态功能的具体发布时间。

尽管如此,OpenAI 表示自发布 AVM 的有限 Alpha 测试版以来,已经进行了一些改进。据称,ChatGPT 的语音功能现在对口音的理解更加出色,公司表示其对话也更加流畅和快速。我们在测试 AVM 时发现偶尔会出现故障,但公司声称这些问题已经有所改善。

OpenAI 还扩展了一些 ChatGPT 的自定义功能到 AVM:自定义指令(Custom Instructions),允许用户个性化 ChatGPT 的回应方式;记忆功能(Memory),使 ChatGPT 可以记住之前的对话以供日后参考。

OpenAI 发言人表示,AVM 目前尚未在几个地区开放,包括欧盟、英国、瑞士、冰岛、挪威和列支敦士登。