<aside>
下文中提到的,deep research pdf 报告下载地址
链接: https://pan.baidu.com/s/1Sn3weGroqdy6QWYFxwF1BQ?pwd=hrrh 提取码: hrrh 复制这段内容后打开百度网盘手机App,操作更方便哦 --来自百度网盘超级会员v7的分享
</aside>
https://www.youtube.com/watch?v=D4Pq-2YBQUU
下面是脚本(做了一些整理)
OpenAI新推出的Deep Research。 晚用一天都是对自己未来的不负责任。 我很激动, 兴奋和恐惧参半。 Deep Research出来一周多了, 我才做好这个视频, 因为它能力太恐怖了。 我也得花几天时间深度研究(Deep Research)一下。
那它到底有多强呢? 一个研究生, 一天才能精读完的英文论文, 它7分钟给出了16,000字的逐段精读报告。 一个分析师, 一周才能写出来的分析报告, 它8分钟搞定。 顶尖水平。 一个博士,花一个月浏览, 花3个月才能写出来的论文综述, 它13分钟搞定。 博士级水平。 你碎片化刷了一年的大模型相关视频, 不如看它10分钟整理的大模型科普报告。 你花几年摸索琢磨职业发展机会, 它7分钟就完成了。 系统的机会洞察报告。 在它(Deep Research)面前, 中国所有的研究生, 都要重新思考一下自己存在的意义。 它威胁的不是某些岗位, 而是所有的知识工作者。
任务类型 | 人类耗时 | Deep Research耗时 |
---|---|---|
英文论文精读报告 | 研究生 1天 | 7分钟(16,000字) |
分析师报告 | 分析师 1周 | 8分钟 |
论文综述(博士级) | 博士4个月 | 13分钟 |
大模型科普内容整理 | 1年(碎片化学习) | 10分钟 |
职业发展机会分析 | 数年 | 7分钟 |
那么接下来 我们就深度研究一下 【为什么Deep Research那么强 到底能在哪些层面解决复杂难题,以及 怎么才能用好它, 还有哪些恐怖的影响】?
它是OpenAI当前最强模型, o3微调版驱动的,这还不是满血版。 o3和GPT4o o1有什么区别呢? GPT4o是预训练范式下的聊天机器人Chatbot, 是通向AGI的第一步。 o1是强化学习范式下的推理者Reasoner, 是通向AGI的第二步。 Deep Research是能规划, 能多步执行的智能体Agent, 是通向AGI的第三步。 按照Sam Altman的5步AGI规划路径, 平均一年跨一步,这本身就很恐怖。 Deep Research会自己上网, 基于推理能力, 从上百个网站里面搜索解释分析合成各种信息, 文本、图片、PDF文档的都可以。 这里的关键就是合成知识。 不要小看这一步, 合成知识的能力是创造新知识的前提。 按照新的布鲁姆认知目标分类模型, Deep Research 直接干到顶, 理解、应用、分析、评价、创造。 这里创造的定义就包括 将不同元素组合成新的整体, 或者新的范式、新的结构。 OpenAI 自己也说了, Deep Research 是迈向 AGI 的重要一步。
<aside>
图片1-布鲁姆分类学
我来帮您将这张Bloom's Taxonomy (布鲁姆分类法)的图片翻译成中文:
from wiki
</aside>
Deep Research 和 O1 一样, 是采用强化学习的方法训练出来的。 但是它能联网。 为什么一定要联网? 因为要解决现实世界的难题挑战, 必须要从网上收集各种信息。 而且 OpenAI故意解除了模型的时间延迟约束, 就是让模型可以慢慢推理, 自由探索。
你给它一个研究主题, Deep Research 自己会规划多步骤的任务, 然后执行。 它会搜索内容, 分析内容, 合成内容, 推理内容, 然后在 5-30 分钟之内 给你输出几万字的研究报告。 也有超过 30 多分钟的, 它生产的几万字报告里面, 哪一句引用了哪篇文章的什么内容, 都有理有据。 Deep Research 会给你展示它的执行步骤 Activity。 你看啊, 它先搜索, 然后评估, 阅读网页内容, 拼凑合成信息, 再阅读, 然后开始制定策略。 它居然在制定策略! Deep Research 这次真的是做到了, from search to research。 在人类最后的测试当中, DeepSeek R1的通过率是9.4%。 Deep Research是26.6%。 与o1相比, 最大的进步出现在 化学、人文社科以及数学领域。 在GAIA榜单上, Deep Research 就是天花板, state of the art SOTA。 GPT4o联网是整合搜索, o3mini联网是推理搜索,
Deep Research联网是深度研究搜索, 是真正意义上的Agent智能体。 这个智能超过博士级人类专家, 而且是横跨100多个学科的Agent。 所以它可以在跨学科知识合成与创造上, 表现出非常惊人的能力。 这个是人类办不到的。 一个月200美金 能帮你深度研究100个问题,你觉得贵吗?
接下来我基于这个金字塔模型, 按照任务的复杂程度, 分级多场景的展示Deep Research的能力。
第一个案例,我让它帮我做一份详细的 大语言模型的科普报告, 介绍大语言模型的发展史和基本原理, 解释不少于80个技术概念, 解释Benchmark评价指标, 介绍大模型的技术细节, 还要介绍一下2024年以后发布的主流大模型, 要求只参考英文信息源, 最后用中文输出。我的要求挺详细了, 但是它还是要跟我再确认几个细节。 我回复之后它就开始干了,一旦开干就不能终止了。 点击过程,可以看到它的执行步骤, 确实都是英文信息源。 最后Deep Research只用了10分钟, 输出了一份1.7万字的大语言模型科普报告。 说实话,本来我是计划做一个相关的视频的, 现在完全没有必要了。 这份报告。 评论区有链接,你直接拿去 把这个报告看透。 你对大模型的认知接口就打开了。 MoE和稠密模型有什么区别? 剪枝、蒸馏是干啥用的? 监督微调、强化学习都是个啥? 里面都有了。 这个报告,如果让我来写, 只参考英文信息源, 然后输出成中文, 以我的能力, 至少得花一个月, 它只用10分钟。 人类啊, 别再做显性知识缝合式的努力了。 在AI面前,真的一文不值。
这个功能用在文献综述的撰写上, 也是爽翻天。 写一份抑郁症相关的, 多种病症的最新研究成果和治疗方案, 13分钟、3万多字。 引用的论文主要来自PubMed Central数据库。 这个是全球最大的生物医学和生命科学领域的数据库。 你看这里, 对于双向情感障碍的研究, 卡里普拉宗在双向一型抑郁中, 优于安慰剂, 并已被升级为一线治疗选择。 点击后面的引用链接 直接跳转到论文原文的引用段落。 直接给你高亮显示。 双向情感障碍, 卡里普拉宗, 一线治疗选择。 如果你把这一段复制到Word里面, 参考文献自动跟随。 点击链接, 也是自动跳转到论文的引用段落, 而且高亮显示。
还有这篇20页的DeepSeek R1的技术报告, 全英文。 你真的想要搞懂, 想要研究透, 看博主的视频就是浪费时间。 你直接发给Deep Research, 7分钟1.6万字的深度解读, 直接端给你了。 这部分的内容概述、 与前文的联系、 技术细节的解读、 意义和亮点、 还有扩展思考。 没有哪个博主能做到这个程度的精细解读。
还是同一份技术报告, 让Deep Research梳理行业相关领域的常见术语, 然后做出解释, 要求不低于100个。 解释分两个版本: 专业解释版和通俗表达版。这次Deep Research足足花了32分钟。 这个太棒了! 你看这个模型微调, 专业版解释和通俗版解释。 模型微调就像把学过通用知识的学生单独辅导某门课程。 先有一个见多识广的大模型, 然后针对具体的任务,再用相关的数据开小灶训练它一下。 好理解吧? 过拟合,通俗版本解释就是学得太细, 把坏习惯也学来了。 欠拟合就是学得不够, 学的时间太短,还没掌握数据里的规律。 正则化相当于给模型上紧箍咒, 别让它胡来, 就是强迫模型别套题,要学方法。