OpenAI近日宣布推出一款新的AI”代理”,旨在帮助用户通过ChatGPT平台进行深入、复杂的研究工作。

这项新功能被恰如其分地命名为”深度研究”(deep research)。

根据OpenAI周日发布的博客文章,这项新功能主要面向”在金融、科学、政策和工程等领域从事密集知识工作,需要进行全面、精确和可靠研究的人群”。该公司还表示,对于那些需要仔细研究才能做出购买决定的商品,如汽车、家电和家具等,这项功能也能发挥重要作用。

简而言之,ChatGPT深度研究功能适用于那些不只需要快速答案或简单总结,而是需要仔细考虑来自多个网站和其他来源信息的场景。

OpenAI表示,深度研究功能现已向ChatGPT Pro用户开放,每月限额100次查询,接下来将陆续向Plus和Team用户开放,最后是Enterprise用户。(据该公司称,Plus版本计划在一个月后推出,付费用户的查询限制也将很快”显著提高”。)这是一次地域性发布,OpenAI尚未公布针对英国、瑞士和欧洲经济区ChatGPT用户的发布时间表。

要使用ChatGPT深度研究功能,用户只需在编辑器中选择”deep research”选项,然后输入查询内容,还可以选择附加文件或电子表格。(目前仅支持网页版,移动端和桌面应用程序的集成将于本月晚些时候推出。)深度研究可能需要5到30分钟来回答问题,完成后用户将收到通知。

目前,ChatGPT深度研究功能仅支持文本输出。不过OpenAI表示,计划在不久后添加嵌入式图片、数据可视化和其他”分析”输出功能。该公司还提到,未来将支持连接”更专业的数据源”,包括”基于订阅”的资源和内部资源。

最关键的问题是,ChatGPT深度研究的准确性如何?毕竟AI并非完美,它容易产生幻觉和其他类型的错误,这在”深度研究”场景中可能特别有害。这可能就是为什么OpenAI表示,每个ChatGPT深度研究的输出都将”完整记录,附带清晰的引用和思维过程总结,使信息易于参考和验证”。

这些防范措施是否足以应对AI的错误,目前还无法确定。OpenAI在ChatGPT中集成的AI网络搜索功能(ChatGPT Search)经常出现失误,给出错误答案。TechCrunch的测试发现,对于某些查询,ChatGPT Search的结果比Google搜索更不实用。

为了提高深度研究的准确性,OpenAI使用了其最近发布的o3”推理”AI模型的特殊版本,该版本通过强化学习在”需要使用浏览器和Python工具的真实世界任务”上进行训练。强化学习本质上通过试错来”教导”模型实现特定目标。当模型越接近目标时,它会收到虚拟”奖励”,理想情况下,这会使它在未来的任务中表现得更好。

OpenAI表示,这个版本的o3模型”针对网页浏览和数据分析进行了优化”,并补充说”它利用推理能力来搜索、解释和分析互联网上大量的文本、图像和PDF文件,根据遇到的信息随时调整方向”。该模型”也能够浏览用户上传的文件”,并且”能够使用Python工具绘制和迭代图表,在回答中嵌入生成的图表和网站图片,并引用来源中的具体句子或段落”。

OpenAI表示,他们使用”人类最后的考试”(Humanity’s Last Exam)评估了ChatGPT深度研究功能,这是一个包含超过3,000个专家级问题的多学科评估。驱动深度研究的o3模型达到了26.6%的准确率,这看起来像是不及格的分数——但”人类最后的考试”本来就是设计得比其他基准更难,目的是为了保持领先于模型的进步。据OpenAI称,深度研究o3模型的表现远超Gemini Thinking(6.2%)、Grok-2(3.8%)和OpenAI自己的GPT-4o(3.3%)。

不过,OpenAI也指出ChatGPT深度研究仍有局限性,有时会出现错误和不正确的推断。该公司表示,深度研究可能难以区分权威信息和谣言,而且经常无法表达对某事的不确定性,在报告和引用格式方面也可能出现错误。

对于那些担心生成式AI对学生或任何需要在线查找信息的人产生影响的人来说,这种深入且有完整引用的输出可能比没有引用的简单聊天机器人总结更具吸引力。但是,我们还需要观察大多数用户是否会真正对输出进行分析和double-check,还是仅仅将其视为一个更专业的可复制粘贴的文本。

值得一提的是,谷歌实际上在不到两个月前就宣布了一个完全相同名称的AI功能。

本文涉及的人工智能服务可通过ChatShare平台获取技术支持