-
日期: 2025-01-31 | 来源: 二湘的十一维空间 | 有0人参与评论 | 专栏: 皇帝 | 字体: 小 中 大
昨天看到很多群里转发这条信息:“据彭博新闻周二报道,微软和 OpenAI 正在调查 ChatGPT 技术的数据输出是否被与 DeepSeek 相关的一个团体以未经授权的方式获取。
报道称,微软的安全研究人员观察到,在去年秋季,他们认为与 DeepSeek 有关的个人使用 OpenAI 的应用程序编程接口(API)提取了大量数据。”
许多人根据这条信息做出结论,认为Deepseek是小偷,Deepseek是Deepshit。许多人都在转发这篇题为《deepseek穿上Ai皇帝的新衣,精英集体蜕化为乌合之众》的文章,认为DeepSeek不过是基于OpenAI的GPT企业版API做了一些二次封装和微调,核心技术并未自研。
我认为这个结论是不准确的,把DS的蒸馏技术当作API二次封装显然是对AI的核心技术不够了解。
那么什么是蒸馏技术呢,业内人士一般称为model distillation(模型蒸馏), 也有人称为knowledge distillation(知识蒸馏),简单来说,就是将复杂大模型(教师模型)的知识“压缩”到更轻量的小模型(学生模型)中,通过模仿教师模型的输出(如概率分布),小模型保持了高性能并且减少了计算量。通俗一点讲,就是学生模仿老师的输出或中间特征,从而将老师的知识和方法(如推理能力、模式识别等)迁移到学生手里。
而API二次封装指的是一个App把终端用户的问题直接甩给另外一个App,得到回复后再把答案返回这边的App。
注意这两者最大的不同是在蒸馏技术里,学生模型学会了老师的推理方法,有了自己的模型,用户的问题是在学生模型里生成的,来自学生自己的App,而在后者,答案是来自另外一个App。
而DeepSeek的核心优化手段是知识蒸馏,目的是将大模型的智能推理方法高效迁移到自己的轻量化模型中,而非直接压缩数据,更不是简单的二次包装获取答案。
文章中提到DeepSeek调用OpenAI的核心证据是当问及”what model are you“时,Deepseek回答是chatGPT,或者”GTP-3”,但这其实不过是DS在Post Training Reinforcement learning (RL)的阶段调用了一些OpenAI的API 获取一些数据。而这种调用是允许的,并且是付费的。当然,这里的确有一个潜在的问题,那就是OpenAI的API调用,每一个账号都有一个Limit,不知道DS是不是用code或者多人多账号的方式绕过了这个Limit,这大概就是微软所说的未经授权的方式获取数据。
昨天和谷歌一个负责Gemini构建的技术主管聊了一阵,他说,其实大模型蒸馏是很常见的,业界一般就是调用比较强的大模型,获取几千至上万不等的prompts & responses用来做RL。DS的Thinking Model(推理模型)有很大的创新,业界公认的推理模型第一梯队包括openAI,谷歌和DS,Anthropic还没有自己的thinking model, Meta在这方面是落后的。AI业内人士早在半年前就关注DS了,Deepseek的技术是很靠谱的,梁文峰是业界公认的懂技术细节的领导者,放眼整个AI圈都找不到一把手CEO这么懂技术细节。DS的确是做的非常好,有许多创新,并且是改变了游戏规则,低成本也可以做AI开发,这必然会鼓励更多人加入AI的开发大军。
有人说,DS不过就是蒸馏技术里的佼佼者而已,答案也并非如此。DS的确是有不少自己的创新的, 用我的一位朋友,AI技术大拿张峥的话说,就是站在巨人肩膀上,长出了自己的脑袋。
那么DS到底有哪些创新呢?
首先是模型架构上有创新。
DS是以强化学习(RL)为核心驱动推理能力,传统大模型主要依赖监督微调(SFT),而 DS首次利用RL作为推理能力的核心训练方式。DeepSeek-R1-Zero 甚至完全采用 RL 训练,不依赖 SFT,当然也出现可读性差、语言混乱等问题。但这是首个公开研究证明 LLM 的推理能力可以纯粹通过RL 激励,而不需要 SFT。这个纯粹依赖RL作为训练方式有些像Deepmind的AlphaGo,通过不断地学习,不断地纠错,从一无所知直接练成一个绝世高手。这一突破为未来该领域的研究奠定了基础。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见