马斯克的"考神 AI" 但没能真正"炸场"

日期: 2025-07-10 | 来源: 极客公园 | 有0人参与评论 | 专栏: 马斯克 | 字体: 小中大
Grok4 考试非常在行，但没能真正“炸场”。

2025 年 7 月，马斯克依然是全科技圈最忙碌的人之一。

特斯拉和 Optimus 机器人项目还在等他拍板，SpaceX 忙着准备下一次火箭发射，Neuralink 继续推进脑机接口试验；与此同时，他还要在 X 上和川普隔空对战、高调宣布创立“美国党”，各种话题造势一刻没停。

而在自己掌控的 X 这个“大染缸”社交网络里，马斯克不仅扮演老板、客服，还要作为首席网红全力吆喝，推广 xAI 新一代的 Grok——那个他口中的“真相机器”，来赶超 OpenAI 等对手。

当地时间 7 月 9 日晚上，xAI 团队进行 Grok 4 Demo 直播，马斯克本人也照例亲自站台，仍称 Grok 是“世界最强 AI”，说 Grok 4 比很多“研究生”“博士”都强。

然而在 X 上，用户的记忆还没刷新。

Grok 4 官宣期间，Grok 3 在给用户的回答中“赞美希特勒”的风波持续发酵，这一话题也占据 Grok 4 直播当天的相关媒体头条。

Grok 4 当天的直播迟到一个小时才开始，还有用户在 xAI 帖子下面留言“把 Grok 放出来！”也有人继续刷着“希特勒”相关梗嘲讽。

进入第四代的 Grok，在一些模型测试上刷出高分，但能否真正解决一些老问题？这个常常被质疑是“直男 AI”“谣言搬运机”的“真相机器”，又是否真能兑现“不过滤”却又不失控的承诺？01

马斯克的“考神 AI”

“ Grok 4 是在所有学科里都达到研究生水平的，甚至比大多数 PhD 都强。”直播晚点 1 小时后，马斯克首先给 Grok 最新一代的水平如此定位。

Grok 4 各种测试集结果｜图片来源：X

当然，哪怕在文本里能解 99% 的难题，也不代表就能设计火箭、改进药物、重塑经济。但马斯克称，AI 现在可能缺乏常识、有时没发明新技术或新物理，但也只是“时间问题”。

除了在 SAT、GRE 考试中取得近乎完美的成绩，在“人类终极考试（HLE）”测试里，Grok 4 现在的得分比 Gemini 2.5 Pro、o3 都高，Grok 4 Heavy 版本更是突破了 40%。

Grok 4 HLE 结果｜图片来源：X

xAI 团队成员解释，这些都是跨学科、开放式、博士级别的难题，为了做到这一点，Grok 4 在训练上彻底换了思路：不再只是堆参数和语料的规模，而是选择将算力大头用在“推理”层，引入可验证的结果奖励，让模型学会从“第一性原理”思考并纠正错误。

他们还强调，随着模型变得越来越智能，“真正有意义的测试题目”数量正在下降，一些人类做不出的问题现在对于 AI 来说已经是“小菜一碟”了。
- 新闻来源于其它媒体，内容不代表本站立场！
原文链接
原文链接:

在此页中阅读全文
更多马斯克的新闻

我们的赞助商

目前还没有人发表评论, 大家都在期待您的高见

发表评论