26歲OpenAI舉報人疑自殺,死前揭ChatGPT黑幕

日期: 2024-12-14 | 來源: 新智元 | 有0人參與評論 | 字體: 小中大
至於H(X)——訓練數據分布的真實信息熵——雖然計算困難但仍是可行的。

可以作出壹個合理假設：H(Y) ≥ H(X)。

這個假設是有依據的，因為完美擬合訓練分布的生成模型會呈現H(Y) = H(X)的特征，同樣，過度擬合並且記憶訓練數據的模型也是如此。

而對於欠擬合的生成模型，可能會引入額外的噪聲，導致H(Y) ＞ H(X)。在H(Y) ≥ H(X)的條件下，就可以為RMI確定壹個下限：

這個下限背後的基本原理是：輸出的信息熵越低，就越可能包含來自模型訓練數據的信息。

在極端情況下，就會導致「內容重復輸出」的問題，即模型會以確定性的方式，輸出訓練數據中的片段。

即使在非確定性的輸出中，訓練數據的信息仍可能以某種程度被使用——這些信息可能被分散融入到整個輸出內容中，而不是簡單的直接復制。

從理論上講，模型輸出的信息熵並不需要低於原始數據的真實信息熵，但在實際開發中，模型開發者往往傾向於選擇讓輸出熵更低的訓練和部署方法。

這主要是因為，熵值高的輸出在采樣過程中會包含更多隨機性，容易導致內容缺乏連貫性或產生虛假信息，也就是「幻覺」。

如何降低信息熵？

數據重復現象

在模型訓練過程中，讓模型多次接觸同壹數據樣本是壹種很常見的做法。

但如果重復次數過多，模型就會完整地記下這些數據樣本，並在輸出時簡單地重復這些內容。

舉個例子，我們先在莎士比亞作品集的部分內容上對GPT-2進行微調。然後用不同顏色來區分每個token的信息熵值，其中紅色表示較高的隨機性，綠色表示較高的確定性。

當僅用數據樣本訓練壹次時，模型對「First Citizen」（第壹公民）這壹提示的補全內容雖然不夠連貫，但顯示出高熵值和創新性。

然而，在重復訓練拾次後，模型完全記住了《科利奧蘭納斯》劇本的開頭部分，並在接收到提示後機械地重復這些內容。

在重復訓練伍次時，模型表現出壹種介於簡單重復和創造性生成之間的狀態——輸出內容中既有新創作的部分，也有記憶的內容。

假設英語文本的真實熵值約為每字符0.95比特，那麼這些輸出中就有大約
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 ...5 6 789 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞