中国数学天才燃爆IMO,Open AI神操作被当场打脸

日期: 2025-07-23 | 来源: Letsight | 有0人参与评论 | 字体: 小中大
图源：网络（第66届IMO中国队成员）

而谈弘毅、徐祺铭、邓哲文组成的“湖北三剑客”，让也湖北成为本届比赛中唯一有三人夺金的省份，刷新同一省份金牌人数纪录。

上海中学再次将金牌收入囊中，到目前为止已经累积获得18枚IMO金牌，堪称国内最强IMO金牌摇篮。

下一届IMO将首次由上海中学主办，也是自1988年北京之后，IMO时隔36年再次回到中国大陆，而且还是第一次由中学而不是大学承办，意义非凡。

除了振奋人心的中国队成绩之外，本届IMO也集齐了几大AI选手。

OpenAI的o3与o4-mini、谷歌的Gemini 2.5、马斯克家的Grok-4以及国产DeepSeek-R1等顶流AI模型全部出战。

为了确保公平和零泄题，本次测试团队特地选在题目刚发布后立即开考，避免模型因为训练数据导致提前见过题目。

测试过程中，大模型在封闭环境中限时解答，不可联网，不可调用工具，仅仅靠已有的模型能力作答。

所有答案由两位奥数专家进行双盲评分，评判标准和IMO官方评审基本一致。

国际数学奥林匹克还要求人工智能公司不要抢孩子们的风头，并在闭幕式后一周再公布结果。

不过遗憾的是，AI大模型在这届IMO上全军覆没。

在这场比拼中，得分最高的是谷歌Gemini 2.5拿到13分，也就是31%的分数，铜牌都够不上。

虽然已经是最高分的AI大模型，但是bug也不少，比如在遇到不会的问题时一本正经地捏造定理。

其他大模型的表现更令人大跌眼镜，比如Grok-4给出的只有结果，没有解释。

就在大家感叹AI太菜的时候，OpenAI团队用最新开发的通用推理模型，在两场4.5小时的考试时间中，和人类完全相同的考试条件下作答。

最终解出5道题，共获得35分，达到IMO金牌分数线，成功拿到了金牌。

图源：X@OpenAI

不过赢了热度，输了风度。这个成绩还没有得到IMO组委会官方认证，而且没有按照规定时间公布成绩，OpenAI的这次表现非但没有得到掌声，反而被群嘲。

真正得到认可的是谷歌Gemini Deep Think，7月21日，谷歌DeepMind正式官宣他们的高阶通用模型在IMO真题测试中解出前5题，拿下35分，

这是历史上首个被官方认可的AI金牌成绩，而在去年谷歌DeepMind才刚刚摘得银牌，进步神速！
- 新闻来源于其它媒体，内容不代表本站立场！
原文链接
原文链接:

在此页中阅读全文

我们的赞助商

目前还没有人发表评论, 大家都在期待您的高见

发表评论