马斯克加入 "视觉模型"是下个"大语言模型"?

日期: 2025-10-12 | 来源: 硬AI | 有0人参与评论 | 专栏: 马斯克 | 字体: 小中大
AI竞赛的下一个战场已然清晰：从文本世界走向物理世界。在这场名为“世界模型”的竞赛中，马斯克旗下xAI已携英伟达专家悄然入局，与谷歌、Meta等巨头同台竞技。xAI计划率先将该技术应用于AI游戏生成，并探索其在机器人系统的应用。谷歌推断，未来的视频模型将变得和语言模型一样智能。

本文作者：龙玥

来源：硬AI

人工智能领域的战火正在从大语言模型蔓延至一个更前沿的领域——能够理解并模拟真实物理世界的“世界模型”（World Models）。而xAI已悄然加入这场竞赛，与谷歌和Meta等科技巨头同台竞技。

据英国《金融时报》10月12日报道，马斯克的初创公司xAI在今年夏天从芯片巨头英伟达聘请了人工智能专家，专门从事世界模型的研发。与依赖文本的大语言模型不同，世界模型通过对海量的视频和机器人数据进行训练，旨在掌握真实世界的物理规律。

“未来的视频模型将变得和语言模型一样智能”，谷歌研究人员在论文中说道。英伟达上月也曾表示，世界模型的潜在市场规模可能接近当前全球经济的总量。

兵马先行：xAI的游戏“奇袭”与机器人野望

为了在这场竞赛中占据一席之地，xAI正在积极招兵买马。

公司已聘请了来自英伟达的两位AI研究员Zeeshan Patel和Ethan He，他们在世界模型领域拥有丰富经验。英伟达凭借其用于创建和运行模拟的Omniverse平台，一直是该技术的领导者。

知情人士透露，xAI为世界模型规划的第一个商业化落点是游戏领域，用于生成可交互的3D环境。这一动态迅速引发市场关注，因为它不仅是xAI商业化路径的明确信号，也凸显了世界模型作为下一代AI技术的巨大潜力。

马斯克本人也在社交平台X上确认，xAI将在“明年年底前发布一款出色的AI生成游戏”。长远来看，这些技术最终可能应用于机器人的人工智能系统。

xAI的招聘信息也印证了其发展方向。公司正在为其“omni团队”招聘图像和视频生成领域的技术人员，薪资范围高达18万至44万美元，该团队致力于“创造超越文本的神奇AI体验”。

此外，公司还在以时薪45至100美元招聘“视频游戏导师”，以训练其AI模型Grok制作视频游戏。

范式转移：视觉模型的“GPT时刻”

xAI的高调入局，恰逢一个关键的行业预判浮出水面：未来的视频模型将变得和语言模型一样智能。谷歌最近的一篇论文指出，其视频模型Veo 3正展现出与大语言模型（LLM）相似的“涌现能力”。

正如LLM通过“下一词元预测”的简单任务，最终学会了数学和创意写作等额外技能，视频模型通过“下一帧预测”，也开始零样本（zero-shot）地解锁一系列令人惊讶的能力，例如物体分割、边缘检测和模拟工具使用等，而这些都未经专门训练。
- 新闻来源于其它媒体，内容不代表本站立场！
原文链接
原文链接:

在此页中阅读全文
更多马斯克的新闻

我们的赞助商

目前还没有人发表评论, 大家都在期待您的高见

发表评论