-
日期: 2025-07-23 | 来源: Letsight | 有0人参与评论 | 字体: 小 中 大
图源:网络(第66届IMO中国队成员)
而谈弘毅、徐祺铭、邓哲文组成的“湖北三剑客”,让也湖北成为本届比赛中唯一有三人夺金的省份,刷新同一省份金牌人数纪录。
上海中学再次将金牌收入囊中,到目前为止已经累积获得18枚IMO金牌,堪称国内最强IMO金牌摇篮。
下一届IMO将首次由上海中学主办,也是自1988年北京之后,IMO时隔36年再次回到中国大陆,而且还是第一次由中学而不是大学承办,意义非凡。
除了振奋人心的中国队成绩之外,本届IMO也集齐了几大AI选手。
OpenAI的o3与o4-mini、谷歌的Gemini 2.5、马斯克家的Grok-4以及国产DeepSeek-R1等顶流AI模型全部出战。
为了确保公平和零泄题,本次测试团队特地选在题目刚发布后立即开考,避免模型因为训练数据导致提前见过题目。
测试过程中,大模型在封闭环境中限时解答,不可联网,不可调用工具,仅仅靠已有的模型能力作答。
所有答案由两位奥数专家进行双盲评分,评判标准和IMO官方评审基本一致。
国际数学奥林匹克还要求人工智能公司不要抢孩子们的风头,并在闭幕式后一周再公布结果。
不过遗憾的是,AI大模型在这届IMO上全军覆没。
在这场比拼中,得分最高的是谷歌Gemini 2.5拿到13分,也就是31%的分数,铜牌都够不上。
虽然已经是最高分的AI大模型,但是bug也不少,比如在遇到不会的问题时一本正经地捏造定理。
其他大模型的表现更令人大跌眼镜,比如Grok-4给出的只有结果,没有解释。
就在大家感叹AI太菜的时候,OpenAI团队用最新开发的通用推理模型,在两场4.5小时的考试时间中,和人类完全相同的考试条件下作答。
最终解出5道题,共获得35分,达到IMO金牌分数线,成功拿到了金牌。
图源:X@OpenAI
不过赢了热度,输了风度。这个成绩还没有得到IMO组委会官方认证,而且没有按照规定时间公布成绩,OpenAI的这次表现非但没有得到掌声,反而被群嘲。
真正得到认可的是谷歌Gemini Deep Think,7月21日,谷歌DeepMind正式官宣他们的高阶通用模型在IMO真题测试中解出前5题,拿下35分,
这是历史上首个被官方认可的AI金牌成绩,而在去年谷歌DeepMind才刚刚摘得银牌,进步神速!- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见