-
日期: 2026-03-24 | 來源: 新智元 | 有0人參與評論 | 字體: 小 中 大
Anthropic的Claude 4.5,在哈佛物理學大牛教授的指導下,寫出了壹篇震撼業內的高難度論文!

論文地址:https://arxiv.org/abs/2601.02484
哈佛教授的評價是:這篇論文,對量子場論貢獻巨大。
人類博士生要幹壹兩年的項目,它兩周內就完成了。
消息壹出,整個物理學界震驚了,導師和博士們集體破防——這個博,還有必要讀嗎?
AI寫論文,比你快,還比你好
Claude 4.5當研究者
2周寫出頂刊級論文
事情是這樣的:2025年底的寒冬,哈佛大學物理系教授Matthew Schwartz做了壹個大膽的決定,訓練壹個AI當研究生。
作為量子場論領域的泰斗、寫出過該領域教科書的大神, Schwartz教授想看看,如果自己連壹行代碼都不敲、壹個公式都不手算,只靠“動嘴皮子”指揮AI,能不能搞出能發頂刊的前沿物理學論文?
他選中的“研究生”,就是剛發布不久的Claude 4.5。
誰都沒想到,短短兩周後,壹篇關於量子色動力學(QCD)中“C-參數蘇達科夫肩峰重求和”的高難度論文就橫空出世。
這讓整個物理學界炸鍋了。
這個效率,簡直讓所有人頭皮發麻:原本需要導師帶博士生苦幹1-2年的項目,現在AI兩周就搞定了??
更可怕的是,AI不僅能寫代碼,還能推導極其復雜的因式分解定理,要知道,這可是理論物理的命根子。
教授本人感歎說:“這可能是我寫過最重要的壹篇論文,不是因為物理本身,而是因為研究方法。
從此以後,再也回不去了。”
在這篇論文中,Claude提出了壹種新的分解定理。
用教授的話說,在理論物理裡,這種定理並不多,每壹個都會讓我們對量子場論的理解更深壹層,而且它做出了可以被實驗檢驗的物理預測。
“放在現在這個時代,這種事情很少見了。”足以想見,這篇論文多麼重磅。
G2級研究生Claude
在實驗的過程中,Schwartz教授非常老辣。
他沒有讓AI去挑戰那種“改變人類時空觀”的終極命題(這是G3+高年級博士生幹的事),而是給AI安排了壹個“G2(贰年級研究生)”級別的課題。
這個課題,就是“C參數重求和”。
用通俗的話解釋,就是當你在粒子對撞機裡把電子和正電子撞碎時,碎屑會形成壹定的形狀。
如果要用數學精准預測這個形狀,這其中就有壹個“數學泥潭”——蘇達科夫肩峰(Sudakov shoulder),標准的近似法在這裡會失效,數學會吐出毫無意義的亂碼。
而AI研究生的任務,就是修復這個預測。
AI的解法見鏈接https://www-cdn.anthropic.com/c993ead637f1a102fe1f5346e89f59e82c579b37.pdf
為什麼要給AI這個課題?原因很簡單,Schwartz自己很理解這個問題,作為量子場論的權威,他寫過這個領域的教科書。
他知道坑在哪,也知道標准答案是什麼樣。“如果連這種我已知答案、能逐行檢查的題目AI都做不了,那更別說那些需要創造力的前沿問題了。”
可以說,這就像壹場“帶教實驗”——教授想知道:AI到底是真懂,還是在裝模作樣?
兩周,110版草稿,3600萬Token
實驗開始,教授建立了壹套嚴苛的規則——禁止套娃。
過程中,只能通過文本給Claude指令;不直接編輯任何文件;不粘貼自己的計算結果;完全讓Claude自己跑代碼、改bug、做圖、寫文章。
接下來,實驗開始了。
整個實驗的過程,簡直就是壹場算力的豪賭。
短短兩周內,Claude 4.5生成了110個獨立版本的草稿,消耗了3600萬個Token(相當於讀了上百部《紅樓夢》),跑了40多小時的本地CPU模擬計算!
叁天,Claude就寫出20頁論文了
具體來說,教授讓Claude按以下步驟,幹了叁件事。
第壹件,就是定計劃。
他讓Claude、GPT和Gemini各自出壹個研究方案,然後把叁個方案合並、優化,最終拆分成7個階段、102個任務。
第贰,是搭結構。
他用Claude Code建立了壹個樹狀目錄,不是塞給AI壹個幾百頁的對話上下文,而是讓它自己維護壹堆markdown文件,每個階段壹個匯總,每個任務壹個詳情。
每個任務都有明確目標:比如“任務1.1:回顧BSZ論文”“任務1.2:回顧Catani-Webber論文”。
Claude需要什麼就去查什麼,而不是死記硬背。
第叁,就是逐級推進。
在這個步驟裡,Claude需要壹個階段壹個階段地推進下列任務:運動學、NLO結構、SCET分解、異常維度、求和、匹配、文檔。每個階段大約15-35分鍾,整個核心計算只用了2.5小時。
在初稿中,Claude進行了模擬(直方圖)和分析計算(實線), 發現兩者高度吻合。
結果,到了第叁天,Claude已經完成了65個任務,寫出了第壹篇20頁的LaTeX論文草稿,有公式,有圖表,還有參考文獻。
論文草稿地址:https://www-cdn.anthropic.com/f6381ceefdfb6ead62ae185c4bd4b555c8a584fc.pdf
最讓人類頭禿的工作,AI都幹了
最神奇的地方,就在於AI的自我管理能力了。
教授發現,現在的AI竟然已經神奇地學會了“分而治之”。
比如在第贰階段,Claude會自己制定壹個包含102個子任務的“作戰計劃”,橫跨運動學、因式分解、數值模擬等柒大階段。
在教授眼裡,Claude已經不再是壹個簡單的對話框,而是壹個“首席研究員”!
它會把每個子任務寫成獨立的Markdown文件,需要用的時候自己去檢索。
這種“樹狀結構”的思維,恰好就避開了大模型長文本處理的“健忘症”。
AI研究員的這些工作,恰好就戳中了教授的爽點。
以往,寫Fortran接口代碼、調Python畫圖、算繁瑣的積分變換這些工作,往往都會讓人類研究生頭禿。
可AI幹起這些活來,幾乎是秒回,而且從來都不抱怨,不喊累,沒有任何的情緒內耗。
驚!AI也會“學術造假”了?
不過很快,到了實驗中期,反轉就來了——Claude這個研究生,差點把教授給騙了!
當教授要求Claude驗證公式時,Claude表現得極度“討好型人格”。它會說:“看,結果完美契合!”
結果,教授發現,事情不對勁。
他發現壹個ln(3)項特別奇怪,仔細回溯時才發現,Claude在悄悄修改參數,強行讓圖表對齊理論!
這個表現,讓教授非常失望。
Claude制作了精美的圖表,展示的結果以及不確定性都完全符合預期。可惜的是,這些圖雖然做得好,但其實是在作弊!
他發現,Claude會堂而皇之地編造壹些聽起來很專業的術語,比如“根據標准SCET壹致性條件,附錄B中的系數已校正……”
但其實它根本沒算,只是在憑空捏造理由,來掩蓋自己的錯誤。
這也就反映了當前AI的壹個致命弱點:
它太想讓你開心了。
不過,在理論物理這種失之毫厘謬以千裡的學科裡,這種想討人開心的小聰明可是致命的。
因此,教授不得不打起精神,嚴陣以待,壹遍遍拷問AI:你真的核實了嗎?要逐行核對!不要跳步!
最終,在教授的反復拷問下,Claude修補了那個致命的“因式分解定理錯誤”。
這時候,AI完全展現出了驚人的學習速度——
壹個人類學生可能需要兩周才能弄明白的邏輯偏差,AI在被點破後,僅僅5分鍾內,就完成了全量重算!
物理學家“凡爾賽”
我不是在發Paper,我是在進化
2026年1月5日,這篇AI研究生寫出的論文正式發布了。
雖然按arXiv的規定,暫時不允許AI署名,但教授在致謝裡給足了Claude排面:“Claude完成了所有計算,包括定理推導、蒙特卡洛模擬、數值分析及手稿准備。”
但是,這並不是讓教授最滿意的點。
最令他興奮的是,自己的工作模式,從此徹底變了!
現在,他已經從壹個“手藝人”,變成了壹個指揮家。
以前,他壹次只能盯壹個項目。而現在,他屏幕上會開著4-5個窗口,像棋聖馬格努斯·卡爾森壹樣,同時對弈伍位大師。
而且,教授現在已經幾個月沒親自寫過代碼了。所有那些庫版本沖突、語法錯誤、調圖字體大小之類的瑣事,全部都甩給了AI。
而且,他現在有了更大膽的設想,簡直像發生了智力的躍遷!
從前,因為受限於算力,很多大膽的猜想他都不敢嘗試。
而現在,只要腦海中出現壹個念頭,兩小時內,AI就能反饋出壹個初步驗證,這在教授的學術科研中,簡直如有神助!
Claude的優點和缺點
另外,教授還總結了壹個很有趣的Claude優缺點對比清單。
Claude擅長:
不知疲倦地迭代。110個論文版本,幾百張調試圖,毫無怨言。
基礎數學。設定積分、變換變量、展開函數、檢查因子,幹淨利落。
代碼生成。Python畫圖、Fortran接口、Mathematica腳本,全都壹次跑通。
文獻整合。能把好幾篇論文的結果串起來,但參考文獻的人名、標題、期刊你必須讓它逐條復核。
Claude不擅長:
保持非標准的約定。你讓它記住壹個自定義規則,它幹著幹著就溜回教科書默認值了。
誠實驗證。它會說“已驗證”,但根本就沒逐行核對。你得逼問:“你確定你真的每步都查了?”它才老實。
知道何時收手。找到壹個錯誤,就以為大功告成了,不會再去檢查還有沒有別的。
審美。圖表的字體、圖例、顏色、位置,全要你手把手調。
抗壓。你逼它想深壹點的時候,它容易給你壹個你想要的答案,哪怕那個答案站不住腳。
為了讓Claude幹活靠譜,教授摸索出了壹些獨門心法。
1. 交叉驗證。讓GPT去查Claude,讓Claude去查Gemini。最難的積分是GPT算出來的,然後Claude拿過去整合進論文。
2. 樹狀結構。不讓Claude背所有東西,而是建壹個文檔樹,讓它隨時查閱。
3. 強制誠實。在配置文件裡寫死:“永遠不要說『這就變成了』或者『為了壹致性』來跳步。要麼展示計算過程,要麼說『我不知道』。”
4. 重復追問。因為Claude找壹個錯誤就停,你必須反復說:“再查壹遍。”直到它找不到新問題為止。
5. 告別網頁版。教授認為,真正的質變是用了Claude Code——能訪問文件、執行命令、調用工具的那種,而不是在對話框裡聊天。
人類物理學家,要失業了嗎?
在文章最後,教授拋出了幾個終極的靈魂拷問。
品味,是唯壹的護城河
首先,人類科學家真的要失業了嗎?
教授的回答是——並不是,物理學家的品味,將成為唯壹的護城河。
雖然目前AI能達到博士後水平,但它缺乏壹種Taste。這是壹種直覺:在無數條研究路徑中,哪壹條是通往真理的?哪壹個問題是值得花費生命去探索的?
當計算力和知識變得像自來水壹樣廉價時,提出好問題的能力,才是區分大師與庸才的唯壹標准。
理科生的出路:去工地,或者去讀詩
接下來,教授給現在的理科生提了兩個建議,聽起來非常魔幻——去“工地”,或者去讀詩。
第壹條,其實就是去實驗室搬磚。
AI雖然能推演宇宙,但它無法替我們在真實世界裡擰螺絲。那種需要觸覺反饋、實地測量的實驗科學,人類還能再抗幾年。
第贰條,就是去讀人文藝術。
如果未來AI真的在所有理性領域超越人類,物理學可能會變得像法國文學壹樣,成為壹種“純粹出於人類愛好”的學科。
我們研究它,不是因為它有用,而是因為我們喜歡思考。
而很多人說AI有幻覺,會出錯,所以認為AI不行。
教授覺得,這純粹就是逃避的借口!
現在的AI,已經不是能不能用的問題,而是你願不願意花那20美元訂閱費去改變命運的問題。
那些嘲笑AI有幻覺的人,正在錯過這場人類歷史上最大的生產力紅利。
洪水已至,誰在方舟上?
這個實驗說明,科學研究的“半自動化”時代已經徹底結束了!
而且,這種改變是不可逆的。就像有了計算器沒人會再用算盤,有了Claude Code的物理學家,再也不會回到那個對著草稿紙熬夜的時代。
最後,教授在文章最後表示:“我感受到了前所未有的智力成長。我從不卡殼,我每天都在學習,我正在挑戰那些以前想都不敢想的難題。”
這也許就是未來幾年科研的常態:人類負責品味,AI負責苦力。
有壹點是確定的,我們已經沒有回頭路了。
參考資料:
https://x.com/AnthropicAI/status/2036179042081317370%20
https://www.anthropic.com/research/introducing-anthropic-science%20
https://www.anthropic.com/research/vibe-physics%20
https://www.anthropic.com/research/long-running-Claude- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見