-
日期: 2025-07-10 | 来源: 极客公园 | 有0人参与评论 | 专栏: 马斯克 | 字体: 小 中 大
Grok4 考试非常在行,但没能真正“炸场”。
2025 年 7 月,马斯克依然是全科技圈最忙碌的人之一。
特斯拉和 Optimus 机器人项目还在等他拍板,SpaceX 忙着准备下一次火箭发射,Neuralink 继续推进脑机接口试验;与此同时,他还要在 X 上和川普隔空对战、高调宣布创立“美国党”,各种话题造势一刻没停。
而在自己掌控的 X 这个“大染缸”社交网络里,马斯克不仅扮演老板、客服,还要作为首席网红全力吆喝,推广 xAI 新一代的 Grok——那个他口中的“真相机器”,来赶超 OpenAI 等对手。
当地时间 7 月 9 日晚上,xAI 团队进行 Grok 4 Demo 直播,马斯克本人也照例亲自站台,仍称 Grok 是“世界最强 AI”,说 Grok 4 比很多“研究生”“博士”都强 。
然而在 X 上,用户的记忆还没刷新。
Grok 4 官宣期间,Grok 3 在给用户的回答中“赞美希特勒”的风波持续发酵,这一话题也占据 Grok 4 直播当天的相关媒体头条。
Grok 4 当天的直播迟到一个小时才开始,还有用户在 xAI 帖子下面留言“把 Grok 放出来!”也有人继续刷着“希特勒”相关梗嘲讽。
进入第四代的 Grok,在一些模型测试上刷出高分,但能否真正解决一些老问题?这个常常被质疑是“直男 AI”“谣言搬运机”的“真相机器”,又是否真能兑现“不过滤”却又不失控的承诺?01
马斯克的“考神 AI”
“ Grok 4 是在所有学科里都达到研究生水平的,甚至比大多数 PhD 都强 。”直播晚点 1 小时后,马斯克首先给 Grok 最新一代的水平如此定位。
Grok 4 各种测试集结果|图片来源:X
当然,哪怕在文本里能解 99% 的难题,也不代表就能设计火箭、改进药物、重塑经济。但马斯克称,AI 现在可能缺乏常识、有时没发明新技术或新物理,但也只是“时间问题”。
除了在 SAT、GRE 考试中取得近乎完美的成绩,在“人类终极考试(HLE)”测试里,Grok 4 现在的得分比 Gemini 2.5 Pro、o3 都高,Grok 4 Heavy 版本更是突破了 40%。
Grok 4 HLE 结果|图片来源:X
xAI 团队成员解释,这些都是跨学科、开放式、博士级别的难题,为了做到这一点,Grok 4 在训练上彻底换了思路: 不再只是堆参数和语料的规模,而是选择将算力大头用在“推理”层,引入可验证的结果奖励,让模型学会从“第一性原理”思考并纠正错误 。
他们还强调,随着模型变得越来越智能,“真正有意义的测试题目”数量正在下降,一些人类做不出的问题现在对于 AI 来说已经是“小菜一碟”了。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见