共计 1209 个字符,预计需要花费 4 分钟才能阅读完成。
OpenAI 最新推出的 Deep Research 功能,是一个能够整合网上大量分散信息并自动执行多步骤研究的 AI 工具。用户只需提供一个提示,Deep Research 便能在数十分钟内完成通常需要数小时的人工研究任务。该功能主要面向需要进行复杂信息查询与分析的用户,如金融、科学、政策分析等领域专业人士,以及需要超个性化推荐的消费者。

技术原理与优势
Deep Research 基于 OpenAI 即将推出的 o3 模型,该模型针对网页浏览和数据分析进行了优化。它通过端到端的强化学习技术,经过大量复杂浏览与推理任务的训练,能够自主规划并执行多步骤的信息搜索流程。此外,Deep Research 还具备以下技术优势:
- 多模态推理与动态调整:结合强化学习和多模态推理,Deep Research 可以根据用户的提示自动调整搜索策略,并在必要时回溯和调整搜索路径。
- 强大的信息整合能力:能够浏览互联网上的文本、图像和 PDF 文件,整合来自不同渠道的信息,并生成包含清晰引用和思路总结的详细报告。
- 内建 Python 工具:支持动态生成和迭代图表,将分析结果嵌入报告中,满足研究报告对技术性和细节的需求。

性能表现
在多项测试中,Deep Research 展现出了卓越的性能:
- 人类终极考试(Humanity’s Last Exam):涵盖多领域专家级问题的测试中,Deep Research 的准确率达到 26.6%,远高于其他先进模型,如 OpenAI o3-mini_high(13.0%)、DeepSeek -R1(9.4%)和 OpenAI o1(9.1%)。
- GAIA 基准测试:在面对不同难度等级的问题时,Deep Research 在 pass@1 测试中的平均准确率为 67.36%,在更密集的 cons@64 测试下,各难度平均准确率达到 72.57%,显示出其在多步骤推理、网页浏览与工具运用上的综合能力。
使用场景与未来展望
目前,Deep Research 主要面向 Pro 用户开放,未来将逐步扩展至 Plus、Team 和 Enterprise 等更多用户。OpenAI 计划进一步扩展 Deep Research 的功能,使其能够连接更多专业订阅资源和内部数据库,以提升报告信息的丰富性和精准性。
竞争与对比
- 与 Google Gemini 1.5 Pro 对比:Google Gemini 1.5 Pro 也具备类似功能,能够上网搜索并深入研究复杂主题,生成条理清晰的报告。然而,Deep Research 在多步骤研究和复杂信息整合方面表现更为突出。
- 与斯坦福大学的 STORM 项目对比:STORM 项目采用 Bing 搜索引擎寻找网络资料,帮助用户编写类似维基百科的文章。相比之下,Deep Research 不仅能够生成更复杂的研究报告,还能通过内建工具进行数据分析和可视化。
Deep Research 的推出标志着 AI 在深度研究和信息整合领域的重大进步,为专业人士和普通用户提供了强大的工具,未来有望进一步推动 AI 在知识发现和研究领域的应用。
正文完
关注公众号获取最新教程
发表至: OpenAI
2025-02-04