OpenAI 升级其转录和语音生成 AI 模型

OpenAI 正在为其 API 推出新的转录和语音生成 AI 模型，公司声称这些模型在其之前的版本基础上有了显著改进。

对于 OpenAI 来说，这些模型契合其更广泛的“代理”愿景：构建能够代表用户独立完成任务的自动化系统。虽然“代理”的定义可能存在争议，但 OpenAI 产品负责人 Olivier Godement 在一次简报会上将其中的一种解释描述为能够与企业客户交谈的聊天机器人。

“我们将在未来几个月看到越来越多的代理出现，”Godement 表示，“总体主题是帮助客户和开发者利用那些实用、可用且准确的代理。”

OpenAI 声称，其新的文本转语音模型“gpt-4o-mini-tts”不仅能提供更细腻、更逼真的语音效果，而且比上一代语音合成模型更具“可控性”。开发者可以用自然语言指示 gpt-4o-mini-tts 如何发声，例如“像疯狂科学家一样说话”或“用平静的声音，像正念老师那样”。

OpenAI 产品团队成员 Jeff Harris 表示，他们的目标是让开发者能够定制语音的“体验”和“语境”。

“在不同的情境中，你不希望听到平淡单调的声音，”Harris 说，“如果你在一个客户支持场景中，希望语音在犯错时带有歉意，你可以让语音真正传递出那种情感……我们坚信，开发者和用户不仅想控制说了什么，还想控制如何说。”

至于 OpenAI 的新语音转文本模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”，它们实际上取代了公司长期使用的 Whisper 转录模型。OpenAI 表示，这些新模型在“多样化、高质量的音频数据集”上训练，能够更好地捕捉带口音和多样的语音，即使是在嘈杂的环境中也不例外。

Harris 还补充说，这些模型的“幻觉”现象更少。Whisper 曾因在对话中编造单词甚至整段内容而臭名昭著，从种族评论到虚构的医疗建议都可能出现在转录中。

“与 Whisper 相比，这些模型在这方面有了很大改进，”Harris 说，“确保模型的准确性对于获得可靠的语音体验至关重要，这里的‘准确’意味着模型能精确地听到单词，而不是填补它们没听到的细节。”

不过，根据所转录的语言不同，用户体验可能会有所差异。

根据 OpenAI 的内部基准测试，两款转录模型中更准确的“gpt-4o-transcribe”在印度语系和达罗毗荼语系（如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语）的“词错率”接近 30%（总计 120%）。这意味着在这些语言中，模型每 10 个词中会有 3 个与人工转录不同。

与传统做法不同，OpenAI 不打算公开其新的转录模型。此前，公司通常会将 Whisper 的新版本以 MIT 许可证的形式开放供商业使用。

Harris 表示，“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”的规模“远超 Whisper”，因此不适合开源发布。

“它们不是那种你可以在笔记本电脑上本地运行的模型，像 Whisper 那样，”他继续说，“我们希望确保，如果要开源发布，我们会深思熟虑，并且提供一个真正针对特定需求优化的模型。我们认为，终端用户设备是开源模型最有趣的应用场景之一。”

更新于 2025 年 3 月 20 日上午 11:54（太平洋时间），以澄清词错率的相关表述，并更新了基准测试结果图表至最新版本。