OpenAI新上线,终极考试的表现超过DeepSeek R1

腾讯科技《AI未来指北》特约作者 晓静 无忌
编辑 郑可君
北京时间2月3日上午,OpenAI正式推出面向深度研究领域的智能体产品深度研究(Deep research)功能。
曾经一位经验丰富的行业分析师需要花费数天甚至数周才能完成的专业研究报告,现在借助这项突破性功能,只需5-30分钟就能完成。这个堪比"AI研究员"的功能,能够自主分析复杂的专业信息,实时查找和综合数百个在线资源,最终生成一份专业水准的完整报告。

这个强大功能由即将推出的OpenAI o3模型的特制版本提供支持,该版本经过专门优化,适配网页浏览和数据分析场景。它能够运用推理能力,在互联网上搜索、解读和分析海量的文本、图像和PDF文件,并能根据所遇到的信息灵活调整研究方向。
值得注意的是,在对这个智能体的能力评测中,OpenAI特别对比了DeepSeek R1,称在Humanity’s Last Exam(简称HLE)测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,刷新之前的18.2%的记录。
相比之下,DeepSeek的R1模型的准确率是9.4%。
OpenAI反击DeepSeek!刚发布新模型Deep research,刷新最高记录
这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。
由此也可以看出,DeepSeek确实让OpenAI感觉到压力不小。
腾讯科技综合了OpenAI的深度研究介绍文档及技术解读直播,梳理了本次发布最值得关注的技术要点。

[加西网正招聘多名全职sales 待遇优]
分享: |
注: | 在此页阅读全文 |
延伸阅读 |
推荐: