00後揪出AI幻覺元凶:僅0.1%神經元,壹按就老實

日期: 2026-01-12 | 來源: DeepTech深科技 | 有3人參與評論 | 字體: 小中大
研究人員比較了只經過預訓練的基礎模型和經過後續調教的指令微調模型，借此發現：

首先，H-神經元在基礎模型中就已經存在。使用指令微調模型中的 H-神經元去檢測基礎模型，依然可以有效預測幻覺，這說明編故事的神經基礎在早期學習就買下來種子。

其次，指令微調幾乎不會改變 H-神經元。對比基礎模型和微調後的模型，H-神經元本身的參數變化非常小，遠低於網絡中其他神經元的平均變化程度。這意味著後續的調教並沒有修復或者顯著改變這些固有回路，只是繼承了它們。

結論很清楚：幻覺的種子早在預訓練階段就已種下。因為預訓練的目標即預測下壹個詞只獎勵流暢，不懲罰虛構。為了變得流暢，AI 不得不學會在空白知識處進行猜測，久而久之就形成了固定的編故事的神經回路。後續的指令微調，雖然讓 AI 變得更加樂於助人，但卻無意中強化了這種為了滿足用戶而順從甚至編造的傾向。

“因此，這項研究的應用前景主要體現在兩方面：首先，由於神經元是模型中具體存在的單元，對其進行幹預（激活或抑制）操作簡便，無需重新訓練模型，這為緩解幻覺提供了新方法；其次，它啟發我們重新思考預訓練目標的設計，引入對事實性、不確定性建模的機制，從而在源頭緩解幻覺。”高騁表示。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 23下壹頁

在此頁中閱讀全文

我們的贊助商

評論

有 3 人參與評論，請點擊查看評論

發表評論

相關功能

新聞