-
日期: 2025-12-27 | 來源: 北京大學 | 有0人參與評論 | 字體: 小 中 大
在北京大學化學與分子工程學院,有機化學考試是許多同學痛並快樂著的挑戰。然而,期中考前突如其來的壹條通知,卻讓這場考試的氣氛變得不同尋常:
“請注意,本次考試范圍不僅限於有機化學。”
但比起考試范圍的變化,考場裡迎來的壹批“特殊考生”,更讓人意想不到。
它們不需要落座,也無需紙筆。它們是GPT、Gemini、DeepSeek……這些當下世界上最聰明的AI,正在雲端與174位北大化學與分子工程學院的大贰學生同場競技。
這是壹場精心設計的“圖靈測試”,也是北大科研團隊為大語言模型投下的壹塊“試金石”。
近日,北京大學化學與分子工程學院聯合北大計算中心、計算機學院、元培學院團隊,發布了最新成果SUPERChem。近期,他們以壹套“北大試卷”為標尺,冷靜丈量著AI在科學推理上的真實邊界。
壹場特殊的期中考
打開SUPERChem的題庫,壹種“壓迫感”撲面而來。
晶體結構的精細解析、反應機理的深度推演、物化性質的定量計算……這500道題目並非來自網絡上隨手可得的公開題庫,而是源於對高難度試題和前沿專業文獻的深度改編。
為什麼要費盡周折重新出題?
“因為大模型太會‘背書’了。”團隊成員解釋道。互聯網可及的測試題大多已被博聞強識的AI在訓練階段熟讀。而化學,恰恰是壹門不能只靠死記硬背的學科。它既有嚴密的邏輯推演,又充滿了對微觀世界的空間想象。“我們非常好奇,大語言模型的壹維next token prediction,能否解決贰維、甚至叁維空間中的復雜推理問題。”
要設計壹套讓AI“沒見過”、必須靠硬實力推理的題目,難度極高。然而,這正是北大化院的獨特優勢所在。近百名師生——其中不乏奧賽金牌得主——集結起來,決定給AI出壹套高門檻、重推理、防作弊的試卷。
他們要考的,是AI是否真的“懂”化學。
壹場游戲中的學術共創
設計題目往往是枯燥的,但這群年輕的北大人卻把它變成了壹場“游戲”。
為了構建這套高質量評估集,團隊搭建了壹個專屬協作平台。在這裡,出題、審題、修題從單調的任務,變成了壹套循序漸進的“通關”流程。成員們在平台上協作,互相審閱、彼此“找茬”,讓嚴謹的科學探討與活躍的思維碰撞交織共融。
團隊還引入了積分激勵系統,讓出題過程就像在游戲中打怪升級。壹道題目需歷經編寫初稿、撰寫解析,再通過初審與終審的嚴格審核,每個環節均由不同的同學把關,並發放相應的積分。終審通過的題目,甚至最多迭代過15個版本。
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見