本周,合成数据在 AI 领域迅速崛起。

上周四,OpenAI 推出了 Canvas,这是一种与 ChatGPT(其 AI 驱动的聊天机器人平台)互动的新方式。Canvas 提供了一个用于写作和编程项目的工作区,用户可以在其中生成文本或代码,然后根据需要使用 ChatGPT 对选定部分进行编辑。

从用户的角度来看,Canvas 大大提升了使用体验。但对我们来说,这一功能最有趣的地方在于其背后的微调模型。OpenAI 表示,他们使用合成数据对其 GPT-4o 模型进行了专门定制,以“在 Canvas 中实现新的用户交互”。

ChatGPT 产品负责人 Nick Turley 在 X 平台的一篇帖子中写道:“我们使用了一些新的合成数据生成技术,例如从 OpenAI 的 o1-preview 中提取输出,以微调 GPT-4o,使其能够打开 Canvas,进行有针对性的编辑,并在文本中添加高质量的评论。”他补充道:“这种方法使我们能够迅速改进模型,实现新的用户交互,而无需依赖人工生成的数据。”

OpenAI 并不是唯一一家越来越多地依赖合成数据来训练模型的科技巨头。

在开发 Movie Gen 这套用于创建和编辑视频片段的 AI 工具时,Meta 部分地依赖于其 Llama 3 模型分支生成的合成字幕。该公司雇佣了一支人工标注团队来修正这些字幕中的错误并添加更多细节,但大部分基础工作是自动完成的。

OpenAI 的 CEO Sam Altman 曾表示,未来 AI 将能够生成足够优质的合成数据,从而自行训练。这对 OpenAI 这样的公司来说具有优势,因为他们在人工标注和数据许可上的花费巨大。

Meta 已经使用合成数据对 Llama 3 模型本身进行了微调。据说 OpenAI 正在为其代号为 Orion 的下一代模型从 o1 获取合成训练数据。

然而,采用合成数据优先的方法也带来了一些风险。正如一位研究人员最近指出的那样,用于生成合成数据的模型不可避免地会产生幻觉(即编造信息),并且包含偏见和局限性。这些缺陷会在模型生成的数据中显现出来。

因此,要安全地使用合成数据,就必须彻底筛选和过滤数据——这也是处理人工生成数据的标准做法。如果不这样做,可能会导致模型崩溃,使模型的输出变得不再“具有创造性”,而是更加偏颇,从而最终严重损害其功能性。

在大规模操作中,这并非易事。但随着现实世界的训练数据变得越来越昂贵(更不用说获取的挑战),AI 供应商可能会将合成数据视为唯一可行的前进道路。希望他们在采用时能保持谨慎。

新闻动态

AI 概览中的广告:Google 表示,将很快在其为某些搜索查询生成的 AI 概览中显示广告。

Google Lens 新增视频功能:Google 的视觉搜索应用 Lens 现已升级,能够回答有关用户周围环境的近乎实时的问题。用户可以通过 Lens 捕获视频,并就视频中的感兴趣对象提问。(广告很可能也会跟进。)

从 Sora 到 DeepMind:OpenAI 视频生成器 Sora 的一名主要负责人 Tim Brooks 已跳槽到竞争对手 Google DeepMind。Brooks 在 X 平台的帖子中宣布,他将致力于视频生成技术和“世界模拟器”。

创新工具 Flux:由 Andreessen Horowitz 支持的初创公司 Black Forest Labs 推出了 xAI 的 Grok 助手的图像生成组件,并发布了测试版 API,以及一个新模型。

透明度不足:加利福尼亚州最近通过的 AB-2013 法案要求开发生成式 AI 系统的公司发布其训练数据的高层次摘要。但到目前为止,很少有公司愿意表示会遵守。该法律规定的最后期限是 2026 年 1 月。

本周研究论文

苹果研究人员多年来一直致力于计算摄影,而这一过程中一个重要方面是深度映射。最初,这是通过立体视觉或专用深度传感器(如激光雷达)来实现的,但这些往往昂贵、复杂,并占用宝贵的内部空间。完全通过软件实现则在很多方面更具优势。这就是本文《Depth Pro》所探讨的内容。

Aleksei Bochkovskii 等人提出了一种高细节的零样本单目深度估计算法,意味着它只需使用单个摄像头,无需针对特定物体训练(例如,即使从未见过骆驼也能处理),并能捕捉到难以处理的细节如毛发。这几乎可以肯定已经在 iPhone 上使用(尽管可能是改进的定制版本),但如果你想自己尝试深度估计,可以使用 GitHub 上的代码。

本周模型

Google 发布了其 Gemini 系列的新模型,Gemini 1.5 Flash-8B,据称这是其性能最好的模型之一。

Gemini 1.5 Flash-8B 是经过“精炼”的 Gemini 1.5 Flash 版本,后者已针对速度和效率进行了优化。新模型使用成本降低了 50%,延迟更低,并在 AI Studio(Google 的 AI 开发者环境)中具有 2 倍的速率限制。

Google 在博客中写道:“Flash-8B 在许多基准测试中几乎与 5 月发布的 1.5 Flash 模型性能相当。我们的模型持续受到开发者反馈和自身测试的启发。”

Gemini 1.5 Flash-8B 适用于聊天、转录和翻译等任务,或任何“简单”和“高频”的任务。除了 AI Studio,该模型还可以通过 Google 的 Gemini API 免费使用,每分钟限 4000 次请求。

杂项

说到低成本的 AI,Anthropic 推出了新功能 Message Batches API,使开发者能够以更低的成本异步处理大量 AI 模型查询。

类似于 Google 为 Gemini API 批处理请求,使用 Anthropic 的 Message Batches API 的开发者可以按批次发送最多 10,000 个查询,每批次在 24 小时内处理,成本比标准 API 调用低 50%。

Anthropic 表示,Message Batches API 非常适合“大型”任务,例如数据集分析、大型数据集分类和模型评估。“例如,”公司在帖子中写道,“分析整个企业文档库——可能涉及数百万个文件——通过利用此批量折扣变得更具经济可行性。”

Message Batches API 目前处于公开测试阶段,支持 Anthropic 的 Claude 3.5 Sonnet、Claude 3 Opus 和 Claude 3 Haiku 模型。