-
日期: 2025-01-26 | 来源: 钛媒体 | 有0人参与评论 | 字体: 小 中 大
正如大家所知,“东方神秘力量”DeepSeek近期在中国、美国的科技圈受到广泛关注,甚至被认为是大模型行业最大“黑马”。
近期,中国 AI 大模型创业公司DeepSeek(深度求索)正式发布 DeepSeek-R1大模型,称在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。
这一消息震动了全球 AI 圈,也让美国 AI 公司研究人员吃惊于中国竟赶超了美国大模型技术。
一位Meta的工程师在美国科技公司员工社区Blind中这样写道,“Meta的生成式AI部门正处于恐慌中。这一切始于DeepSeek,它使得 Llama 4 在基准测试中已经落后。雪上加霜的是:那个不知名的中国公司,仅有550万美元的训练预算。工程师们正在疯狂地剖析DeepSeek,并试图从中复制一切可能的东西。”
钛媒体AGI了解到,截至发稿前,DeepSeek移动端在苹果 App Store应用商店排行第八,超越Google Gemini、Microsoft Copilot等美国生成式 AI 产品,下载热度仅次于ChatGPT。同时,OpenAI、字节跳动、阿里通义以及智谱、Kimi月之暗面等国内外团队都在积极研究DeepSeek,OpenAI和字节跳动都在考虑与DeepSeek展开研究合作。
达沃斯世界经济论坛期间,Scale AI创始人亚历山大·王(Alexandr Wang)直言,DeepSeekAI大模型性能大致与美国最好的模型相当。他认为,过去十年来,美国可能一直在 AI 竞赛中领先于中国,但DeepSeek的AI大模型发布可能会“改变一切”。
值得细品的是Alexandr Wang说的另一段话:“DeepSeek大约有5万张H100计算卡,他们显然不能谈论这件事,因为这违反了美国实施的出口管制。我认为这是真的,我认为他们的筹码比其他人预期的要多,但也会继续前进。他们将受到芯片控制和出口管制的限制。”
Alexandr Wang暗示DeepSeek将会受到美国管制。
DeepSeek创始人、头部量化私募幻方量化创始人梁文锋曾表示,DeepSeek面临的主要制约因素不是资金,而是高端算力的使用权,这些芯片对于训练先进AI模型至关重要。
随着AMD证实DeepSeek正在使用最强 AI 芯片之一的MI300X进行大模型训练,对于中国 AI 如何突破围栏实施大模型训练,将成为关键话题。
DeepSeek朝美国硅谷开的“这一枪”用时4年
如果你在 AI 圈,对于DeepSeek和梁文锋已经有很多文章进行介绍了。总结来说有几点:
1、梁文锋是典型的“小镇做题家”:出生于广东湛江的五(三)线城市、17岁考入浙江大学,2010年硕士毕业于浙江大学信息与通信工程专业。
2、硕士毕业后,梁文锋就带领团队开始使用机器学习等技术探索全自动量化交易。2010年,他和浙江大学校友创立了雅克比投资。
3、2015年6月,30岁的梁文锋与“股东出轨女下属”的徐进联合创办杭州幻方科技有限公司(幻方量化、High-Flyer),依靠数学与人工智能进行量化投资,立志成为世界顶级的量化对冲基金。
4、2021年,幻方量化管理规模已突破了1000亿元,同一年,梁文锋开始找寻“副业”,找供应商买了数千张英伟达GPU显卡(当时应该买的是RTX4090、A100、L40等),发力AI技术。而到2023年,幻方量化管理总规模已降到400多亿元。
5、2023年初,幻方量化曾宣布自身拥有1万张英伟达A100 GPU卡,后来我们了解到,当时幻方量化说了假话,它当时仅拥有数千张A100卡而已,剩下则是消费卡、老款显卡,还有用云服务方式租用A100显卡。业内人士将其视为,一个亿万富翁寻找新爱好时的“古怪行为”。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见