-
日期: 2026-01-12 | 來源: DeepTech深科技 | 有3人參與評論 | 字體: 小 中 大
近日,清華大學團隊從 AI 裡找到了與幻覺產生高度關聯的少數“腦細胞”,並給它們起了壹個名字 H-神經元(幻覺神經元)。他們發現撥動這些小開關能顯著調節 AI 的行為傾向——例如影響它是否會盲目聽從錯誤指令、甚至是否會產生有害回答。
這壹研究讓人們第壹次清晰地看到幻覺是如何從機器的神經層面產生的。它可以幫助我們更好地檢測 AI 什麼時候在撒謊,未來也可以通過微調這些小開關,造出更加誠實、更加可靠的 AI 助手。
圖 | 高騁(來源:高騁)
AI幻覺從何而來?如何找到關鍵幻覺因素?
對於大模型來說,我們可以把其想象成為壹個由數千億個腦細胞(在 AI 裡叫神經元)連接成的超級網絡。它通過閱讀互聯網的海量信息來學習,學習目標很簡單,就是根據前面的文字,預測下壹個最有可能出現的詞語。比如看到“天空是什麼顏色的”,它大概率會學會接“藍色的”。
但這種學習方式埋下了壹個隱患:模型只被訓練生成通順的文字,而不是正確的答案。當它遇到自己不確定或者根本沒學過的知識,為了完成只說出壹個通順句子的任務,它就可能憑感覺編造出壹個答案。
此前,人們大多從整體上研究這個問題,比如檢查訓練數據是否有偏差,或者讓 AI 自己輸出置信度。但是,這就像只知道壹個人發燒,卻不知道哪個器官感染了壹樣。本次清華團隊的創新之處在於,他們決定拿起顯微鏡直接去觀察 AI 大腦內部裡的數千萬甚至數億個神經元,看看當 AI 在撒謊的時候,到底是哪些神經元在活躍。
(來源:資料圖)
相關論文第壹作者、清華大學碩士生高騁告訴 DeepTech:“目前工業界對減輕幻覺的關注相對有限,但學術界已做了許多努力。不過,多數研究仍停留在表層,將模型視為黑盒,通過後訓練、調整數據等方式打補丁,未能從根本上理解幻覺機制。因此,我們希望借鑒神經科學的思路,從模型內部神經元入手,真正理解幻覺的產生原理,為未來徹底解決該問題提供新的視角。”
為此,高騁和所在團隊准備了壹套尋找方法:
首先,他們備好壹批測試題和標准答案,使用了壹個名為 TriviaQA 的知識問答數據集來向 AI 模型提問。對於每個問題,他們都讓 AI 生成很多遍答案。如果 AI 每次都能答對,這個答案就被標記為真實;如果 AI 每次都在同壹個問題上犯錯,並且不是回答“我不知道”,而是堅定地給出錯誤答案,那麼這個答案就被標記為幻覺。
當 AI 生成答案的時候,他們使用了壹套名為 CETT 的測量技術,仔細記錄下每個神經元的活躍度貢獻值,就像測量每個腦細胞在說出那個答案時付出了多大力氣壹樣。研究人員特別關注答案關鍵詞比如“愛因斯坦”壹詞被說出來的那壹刻的神經元活動。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接: