-
日期: 2024-12-14 | 來源: 新智元 | 有0人參與評論 | 字體: 小 中 大
至於H(X)——訓練數據分布的真實信息熵——雖然計算困難但仍是可行的。
可以作出壹個合理假設:H(Y) ≥ H(X)。
這個假設是有依據的,因為完美擬合訓練分布的生成模型會呈現H(Y) = H(X)的特征,同樣,過度擬合並且記憶訓練數據的模型也是如此。
而對於欠擬合的生成模型,可能會引入額外的噪聲,導致H(Y) > H(X)。在H(Y) ≥ H(X)的條件下,就可以為RMI確定壹個下限:
這個下限背後的基本原理是:輸出的信息熵越低,就越可能包含來自模型訓練數據的信息。
在極端情況下,就會導致「內容重復輸出」的問題,即模型會以確定性的方式,輸出訓練數據中的片段。
即使在非確定性的輸出中,訓練數據的信息仍可能以某種程度被使用——這些信息可能被分散融入到整個輸出內容中,而不是簡單的直接復制。
從理論上講,模型輸出的信息熵並不需要低於原始數據的真實信息熵,但在實際開發中,模型開發者往往傾向於選擇讓輸出熵更低的訓練和部署方法。
這主要是因為,熵值高的輸出在采樣過程中會包含更多隨機性,容易導致內容缺乏連貫性或產生虛假信息,也就是「幻覺」。
如何降低信息熵?
數據重復現象
在模型訓練過程中,讓模型多次接觸同壹數據樣本是壹種很常見的做法。
但如果重復次數過多,模型就會完整地記下這些數據樣本,並在輸出時簡單地重復這些內容。
舉個例子,我們先在莎士比亞作品集的部分內容上對GPT-2進行微調。然後用不同顏色來區分每個token的信息熵值,其中紅色表示較高的隨機性,綠色表示較高的確定性。
當僅用數據樣本訓練壹次時,模型對「First Citizen」(第壹公民)這壹提示的補全內容雖然不夠連貫,但顯示出高熵值和創新性。
然而,在重復訓練拾次後,模型完全記住了《科利奧蘭納斯》劇本的開頭部分,並在接收到提示後機械地重復這些內容。
在重復訓練伍次時,模型表現出壹種介於簡單重復和創造性生成之間的狀態——輸出內容中既有新創作的部分,也有記憶的內容。
假設英語文本的真實熵值約為每字符0.95比特,那麼這些輸出中就有大約
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見