哈佛重磅發現:AI診斷真實病例准確率超醫生

日期: 2026-05-04 | 來源: 新智元 | 有0人參與評論 | 專欄: 哈佛 | 字體: 小中大
壹個時代的裂縫，就這麼被撕開了。

76個真實患者，零預處理，雙盲對決

這項研究最硬核的地方在於：它不是拿精心整理的教科書病例去考AI，而是直接把急診室裡最原始、最混亂的電子病歷扔給了機器。

研究團隊從貝斯以色列急診科隨機選取了76名真實患者，在叁個關鍵診斷節點進行對比——急診分診（患者剛進門）、急診醫生首次接診、以及收治入院或進ICU。

每個節點，兩位內科主治醫生和OpenAI的o1、4o模型同時給出鑒別診斷，每方最多列5個可能診斷。

關鍵細節是：研究人員對數據零預處理。

論文明確寫道，AI模型接收到的信息和醫生看到的電子病歷完全壹致——那些凌亂的、缺失的、充滿噪聲的真實臨床數據。

然後，由另外兩名主治醫生進行「盲評」——他們不知道哪個診斷來自人類、哪個來自AI。

盲評結果顯示，評審醫生幾乎完全無法分辨診斷來源：壹位醫生猜對AI/人類的准確率僅15.2%（83.6%的時候選了「分不清」），另壹位更誇張，只有3.1%（94.4%「分不清」）。

換句話說，AI寫的診斷，連資深醫生都看不出是機器生成的。

在這樣的嚴苛條件下，o1模型在急診分診階段——信息最少、時間最緊、決策最關鍵的環節——給出了67.1%的准確率（包含精確診斷或非常接近的診斷）。

兩位人類醫生分別是55.3%和50.0%。

隨著信息逐漸增多，所有人的表現都在提升：到入院階段，o1准確率升至81.6%，醫生分別為78.9%和69.7%。

但差距始終存在，而且在信息最匱乏的初始階段差距最大。

這恰恰是最可怕的發現——急診最要命的就是「前幾分鍾」，患者剛被推進來，信息碎片化，生死攸關，醫生需要在極度不確定中做出判斷。

而恰恰在這個環節，AI表現最突出。

急診醫生不幹了：拿內科醫生跟AI比，能說明什麼？

論文發布後，壹位名叫Kristen Panthagani的急診科醫生在社交媒體上直接開懟：這是壹個「被過度炒作的有趣研究」。

她的核心質疑是：研究中和AI對比的是內科主治醫生，不是急診科醫生。

「如果我們要拿AI和醫生的臨床能力做比較，至少應該拿同壹個專科的醫生來比。我不會驚訝於壹個大語言模型能在神經外科的專科考試中打敗皮膚科醫生，但這並不能說明什麼。」
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 123 4 下壹頁

在此頁中閱讀全文
更多哈佛的新聞

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞