马斯克的"考神 AI" 但没能真正"炸场"

日期: 2025-07-10 | 来源: 极客公园 | 有0人参与评论 | 专栏: 马斯克 | 字体: 小中大
Grok 4 与 ChatGPT 语音模式演示对比｜图片来源：X

xAI 团队还分享了 Grok 在 Vending-Bench 中的测试结果。

Vending-Bench 通过自动售货机的运营任务，主要观察模型在超长对话中是否能保持稳定和连贯。许多 AI 模型在短期任务中表现出色，但在长时间运行中，它们可能会出现决策混乱、遗忘关键信息，甚至陷入“崩溃循环”。

在这项测试中，Grok 4 销售量最多，比 Claude Opus 4、人类、Gemini2.5 Pro、o3 都多，与竞争对手相比，净资产增加了一倍。

马斯克和团队还宣布，xAI 的企业部门现在已经“开业”。

Grok 4 Vending-Bench 结果｜图片来源：X

此外，爱玩游戏的马斯克还让团队展示了 Grok 4 如何用于游戏开发：一个人可以用 Grok 4 在 4 小时内做出 FPS（第一人称射击游戏）原型。

马斯克称，未来让大模型玩游戏、评估游戏、生成游戏，需要 AI 有很强的视频理解能力。这是 xAI 的其中一个发展方向。

Grok 4 用于游戏场景｜图片来源：X

当然，Grok 4 也并非无敌，它在图像理解和生成上仍逊于 OpenAI、Anthropic 等对手。

不过 xAI 内部也已经画好大饼，表示下一代基础模型将强化图像和音频理解，接着是视频生成，争取在这些方面取得“惊人”成果。

马斯克还喊话，“到今年底前，我预期能出现第一段真正可看的 AI 生成电视剧，明年就能有完整可看的电影。”

AI 编程也是接下来重点，虽然竞争对手们早已在市场起飞，xAI 团队表示会以最快的速度进行开发，目前内部正在训练专用模型。
- 新闻来源于其它媒体，内容不代表本站立场！
原文链接
原文链接:

在此页中阅读全文
更多马斯克的新闻

我们的赞助商

目前还没有人发表评论, 大家都在期待您的高见

发表评论