-
日期: 2025-07-10 | 来源: 极客公园 | 有0人参与评论 | 专栏: 马斯克 | 字体: 小 中 大
Grok 4 与 ChatGPT 语音模式演示对比|图片来源:X
xAI 团队还分享了 Grok 在 Vending-Bench 中的测试结果。
Vending-Bench 通过自动售货机的运营任务,主要观察模型在超长对话中是否能保持稳定和连贯。许多 AI 模型在短期任务中表现出色,但在长时间运行中,它们可能会出现决策混乱、遗忘关键信息,甚至陷入“崩溃循环”。
在这项测试中,Grok 4 销售量最多,比 Claude Opus 4、人类、Gemini2.5 Pro、o3 都多,与竞争对手相比,净资产增加了一倍。
马斯克和团队还宣布,xAI 的企业部门现在已经“开业”。
Grok 4 Vending-Bench 结果|图片来源:X
此外,爱玩游戏的马斯克还让团队展示了 Grok 4 如何用于游戏开发:一个人可以用 Grok 4 在 4 小时内做出 FPS(第一人称射击游戏)原型。
马斯克称,未来让大模型玩游戏、评估游戏、生成游戏,需要 AI 有很强的视频理解能力。这是 xAI 的其中一个发展方向。
Grok 4 用于游戏场景|图片来源:X
当然,Grok 4 也并非无敌, 它在图像理解和生成上仍逊于 OpenAI、Anthropic 等对手 。
不过 xAI 内部也已经画好大饼,表示下一代基础模型将强化图像和音频理解,接着是视频生成,争取在这些方面取得“惊人”成果。
马斯克还喊话,“到今年底前,我预期能出现第一段真正可看的 AI 生成电视剧,明年就能有完整可看的电影。”
AI 编程也是接下来重点,虽然竞争对手们早已在市场起飞,xAI 团队表示会以最快的速度进行开发,目前内部正在训练专用模型。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见