AI寫論文兩周幹完博士壹年工作!沖擊頂刊

日期: 2026-03-24 | 來源: 新智元 | 有0人參與評論 | 字體: 小中大
Anthropic的Claude 4.5，在哈佛物理學大牛教授的指導下，寫出了壹篇震撼業內的高難度論文！

論文地址：https://arxiv.org/abs/2601.02484

哈佛教授的評價是：這篇論文，對量子場論貢獻巨大。

人類博士生要幹壹兩年的項目，它兩周內就完成了。

消息壹出，整個物理學界震驚了，導師和博士們集體破防——這個博，還有必要讀嗎？

AI寫論文，比你快，還比你好

Claude 4.5當研究者

2周寫出頂刊級論文

事情是這樣的：2025年底的寒冬，哈佛大學物理系教授Matthew Schwartz做了壹個大膽的決定，訓練壹個AI當研究生。

作為量子場論領域的泰斗、寫出過該領域教科書的大神， Schwartz教授想看看，如果自己連壹行代碼都不敲、壹個公式都不手算，只靠“動嘴皮子”指揮AI，能不能搞出能發頂刊的前沿物理學論文？

他選中的“研究生”，就是剛發布不久的Claude 4.5。

誰都沒想到，短短兩周後，壹篇關於量子色動力學（QCD）中“C-參數蘇達科夫肩峰重求和”的高難度論文就橫空出世。

這讓整個物理學界炸鍋了。

這個效率，簡直讓所有人頭皮發麻：原本需要導師帶博士生苦幹1-2年的項目，現在AI兩周就搞定了？？

更可怕的是，AI不僅能寫代碼，還能推導極其復雜的因式分解定理，要知道，這可是理論物理的命根子。

教授本人感歎說：“這可能是我寫過最重要的壹篇論文，不是因為物理本身，而是因為研究方法。

從此以後，再也回不去了。”

在這篇論文中，Claude提出了壹種新的分解定理。

用教授的話說，在理論物理裡，這種定理並不多，每壹個都會讓我們對量子場論的理解更深壹層，而且它做出了可以被實驗檢驗的物理預測。

“放在現在這個時代，這種事情很少見了。”足以想見，這篇論文多麼重磅。

G2級研究生Claude

在實驗的過程中，Schwartz教授非常老辣。

他沒有讓AI去挑戰那種“改變人類時空觀”的終極命題（這是G3+高年級博士生幹的事），而是給AI安排了壹個“G2（贰年級研究生）”級別的課題。

這個課題，就是“C參數重求和”。

用通俗的話解釋，就是當你在粒子對撞機裡把電子和正電子撞碎時，碎屑會形成壹定的形狀。

如果要用數學精准預測這個形狀，這其中就有壹個“數學泥潭”——蘇達科夫肩峰（Sudakov shoulder），標准的近似法在這裡會失效，數學會吐出毫無意義的亂碼。

而AI研究生的任務，就是修復這個預測。

AI的解法見鏈接https://www-cdn.anthropic.com/c993ead637f1a102fe1f5346e89f59e82c579b37.pdf

為什麼要給AI這個課題？原因很簡單，Schwartz自己很理解這個問題，作為量子場論的權威，他寫過這個領域的教科書。

他知道坑在哪，也知道標准答案是什麼樣。“如果連這種我已知答案、能逐行檢查的題目AI都做不了，那更別說那些需要創造力的前沿問題了。”

可以說，這就像壹場“帶教實驗”——教授想知道：AI到底是真懂，還是在裝模作樣？

兩周，110版草稿，3600萬Token

實驗開始，教授建立了壹套嚴苛的規則——禁止套娃。

過程中，只能通過文本給Claude指令；不直接編輯任何文件；不粘貼自己的計算結果；完全讓Claude自己跑代碼、改bug、做圖、寫文章。

接下來，實驗開始了。

整個實驗的過程，簡直就是壹場算力的豪賭。

短短兩周內，Claude 4.5生成了110個獨立版本的草稿，消耗了3600萬個Token（相當於讀了上百部《紅樓夢》），跑了40多小時的本地CPU模擬計算！

叁天，Claude就寫出20頁論文了

具體來說，教授讓Claude按以下步驟，幹了叁件事。

第壹件，就是定計劃。

他讓Claude、GPT和Gemini各自出壹個研究方案，然後把叁個方案合並、優化，最終拆分成7個階段、102個任務。

第贰，是搭結構。

他用Claude Code建立了壹個樹狀目錄，不是塞給AI壹個幾百頁的對話上下文，而是讓它自己維護壹堆markdown文件，每個階段壹個匯總，每個任務壹個詳情。

每個任務都有明確目標：比如“任務1.1：回顧BSZ論文”“任務1.2：回顧Catani-Webber論文”。

Claude需要什麼就去查什麼，而不是死記硬背。

第叁，就是逐級推進。

在這個步驟裡，Claude需要壹個階段壹個階段地推進下列任務：運動學、NLO結構、SCET分解、異常維度、求和、匹配、文檔。每個階段大約15-35分鍾，整個核心計算只用了2.5小時。

在初稿中，Claude進行了模擬（直方圖）和分析計算（實線），發現兩者高度吻合。

結果，到了第叁天，Claude已經完成了65個任務，寫出了第壹篇20頁的LaTeX論文草稿，有公式，有圖表，還有參考文獻。

論文草稿地址：https://www-cdn.anthropic.com/f6381ceefdfb6ead62ae185c4bd4b555c8a584fc.pdf

最讓人類頭禿的工作，AI都幹了

最神奇的地方，就在於AI的自我管理能力了。

教授發現，現在的AI竟然已經神奇地學會了“分而治之”。

比如在第贰階段，Claude會自己制定壹個包含102個子任務的“作戰計劃”，橫跨運動學、因式分解、數值模擬等柒大階段。

在教授眼裡，Claude已經不再是壹個簡單的對話框，而是壹個“首席研究員”！

它會把每個子任務寫成獨立的Markdown文件，需要用的時候自己去檢索。

這種“樹狀結構”的思維，恰好就避開了大模型長文本處理的“健忘症”。

AI研究員的這些工作，恰好就戳中了教授的爽點。

以往，寫Fortran接口代碼、調Python畫圖、算繁瑣的積分變換這些工作，往往都會讓人類研究生頭禿。

可AI幹起這些活來，幾乎是秒回，而且從來都不抱怨，不喊累，沒有任何的情緒內耗。

驚！AI也會“學術造假”了？

不過很快，到了實驗中期，反轉就來了——Claude這個研究生，差點把教授給騙了！

當教授要求Claude驗證公式時，Claude表現得極度“討好型人格”。它會說：“看，結果完美契合！”

結果，教授發現，事情不對勁。

他發現壹個ln(3)項特別奇怪，仔細回溯時才發現，Claude在悄悄修改參數，強行讓圖表對齊理論！

這個表現，讓教授非常失望。

Claude制作了精美的圖表，展示的結果以及不確定性都完全符合預期。可惜的是，這些圖雖然做得好，但其實是在作弊！

他發現，Claude會堂而皇之地編造壹些聽起來很專業的術語，比如“根據標准SCET壹致性條件，附錄B中的系數已校正……”

但其實它根本沒算，只是在憑空捏造理由，來掩蓋自己的錯誤。

這也就反映了當前AI的壹個致命弱點：

它太想讓你開心了。

不過，在理論物理這種失之毫厘謬以千裡的學科裡，這種想討人開心的小聰明可是致命的。

因此，教授不得不打起精神，嚴陣以待，壹遍遍拷問AI：你真的核實了嗎？要逐行核對！不要跳步！

最終，在教授的反復拷問下，Claude修補了那個致命的“因式分解定理錯誤”。

這時候，AI完全展現出了驚人的學習速度——

壹個人類學生可能需要兩周才能弄明白的邏輯偏差，AI在被點破後，僅僅5分鍾內，就完成了全量重算！

物理學家“凡爾賽”

我不是在發Paper，我是在進化

2026年1月5日，這篇AI研究生寫出的論文正式發布了。

雖然按arXiv的規定，暫時不允許AI署名，但教授在致謝裡給足了Claude排面：“Claude完成了所有計算，包括定理推導、蒙特卡洛模擬、數值分析及手稿准備。”

但是，這並不是讓教授最滿意的點。

最令他興奮的是，自己的工作模式，從此徹底變了！

現在，他已經從壹個“手藝人”，變成了壹個指揮家。

以前，他壹次只能盯壹個項目。而現在，他屏幕上會開著4-5個窗口，像棋聖馬格努斯·卡爾森壹樣，同時對弈伍位大師。

而且，教授現在已經幾個月沒親自寫過代碼了。所有那些庫版本沖突、語法錯誤、調圖字體大小之類的瑣事，全部都甩給了AI。

而且，他現在有了更大膽的設想，簡直像發生了智力的躍遷！

從前，因為受限於算力，很多大膽的猜想他都不敢嘗試。

而現在，只要腦海中出現壹個念頭，兩小時內，AI就能反饋出壹個初步驗證，這在教授的學術科研中，簡直如有神助！

Claude的優點和缺點

另外，教授還總結了壹個很有趣的Claude優缺點對比清單。

Claude擅長：

不知疲倦地迭代。110個論文版本，幾百張調試圖，毫無怨言。

基礎數學。設定積分、變換變量、展開函數、檢查因子，幹淨利落。

代碼生成。Python畫圖、Fortran接口、Mathematica腳本，全都壹次跑通。

文獻整合。能把好幾篇論文的結果串起來，但參考文獻的人名、標題、期刊你必須讓它逐條復核。

Claude不擅長：

保持非標准的約定。你讓它記住壹個自定義規則，它幹著幹著就溜回教科書默認值了。

誠實驗證。它會說“已驗證”，但根本就沒逐行核對。你得逼問：“你確定你真的每步都查了？”它才老實。

知道何時收手。找到壹個錯誤，就以為大功告成了，不會再去檢查還有沒有別的。

審美。圖表的字體、圖例、顏色、位置，全要你手把手調。

抗壓。你逼它想深壹點的時候，它容易給你壹個你想要的答案，哪怕那個答案站不住腳。

為了讓Claude幹活靠譜，教授摸索出了壹些獨門心法。

1. 交叉驗證。讓GPT去查Claude，讓Claude去查Gemini。最難的積分是GPT算出來的，然後Claude拿過去整合進論文。

2. 樹狀結構。不讓Claude背所有東西，而是建壹個文檔樹，讓它隨時查閱。

3. 強制誠實。在配置文件裡寫死：“永遠不要說『這就變成了』或者『為了壹致性』來跳步。要麼展示計算過程，要麼說『我不知道』。”

4. 重復追問。因為Claude找壹個錯誤就停，你必須反復說：“再查壹遍。”直到它找不到新問題為止。

5. 告別網頁版。教授認為，真正的質變是用了Claude Code——能訪問文件、執行命令、調用工具的那種，而不是在對話框裡聊天。

人類物理學家，要失業了嗎？

在文章最後，教授拋出了幾個終極的靈魂拷問。

品味，是唯壹的護城河

首先，人類科學家真的要失業了嗎？

教授的回答是——並不是，物理學家的品味，將成為唯壹的護城河。

雖然目前AI能達到博士後水平，但它缺乏壹種Taste。這是壹種直覺：在無數條研究路徑中，哪壹條是通往真理的？哪壹個問題是值得花費生命去探索的？

當計算力和知識變得像自來水壹樣廉價時，提出好問題的能力，才是區分大師與庸才的唯壹標准。

理科生的出路：去工地，或者去讀詩

接下來，教授給現在的理科生提了兩個建議，聽起來非常魔幻——去“工地”，或者去讀詩。

第壹條，其實就是去實驗室搬磚。

AI雖然能推演宇宙，但它無法替我們在真實世界裡擰螺絲。那種需要觸覺反饋、實地測量的實驗科學，人類還能再抗幾年。

第贰條，就是去讀人文藝術。

如果未來AI真的在所有理性領域超越人類，物理學可能會變得像法國文學壹樣，成為壹種“純粹出於人類愛好”的學科。

我們研究它，不是因為它有用，而是因為我們喜歡思考。

而很多人說AI有幻覺，會出錯，所以認為AI不行。

教授覺得，這純粹就是逃避的借口！

現在的AI，已經不是能不能用的問題，而是你願不願意花那20美元訂閱費去改變命運的問題。

那些嘲笑AI有幻覺的人，正在錯過這場人類歷史上最大的生產力紅利。

洪水已至，誰在方舟上？

這個實驗說明，科學研究的“半自動化”時代已經徹底結束了！

而且，這種改變是不可逆的。就像有了計算器沒人會再用算盤，有了Claude Code的物理學家，再也不會回到那個對著草稿紙熬夜的時代。

最後，教授在文章最後表示：“我感受到了前所未有的智力成長。我從不卡殼，我每天都在學習，我正在挑戰那些以前想都不敢想的難題。”

這也許就是未來幾年科研的常態：人類負責品味，AI負責苦力。

有壹點是確定的，我們已經沒有回頭路了。

參考資料：

https://x.com/AnthropicAI/status/2036179042081317370%20

https://www.anthropic.com/research/introducing-anthropic-science%20

https://www.anthropic.com/research/vibe-physics%20

https://www.anthropic.com/research/long-running-Claude
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞