-
日期: 2024-12-14 | 來源: 新智元 | 有0人參與評論 | 字體: 小 中 大
的內容是來自訓練數據集。
強化學習機制
ChatGPT產生低熵輸出的主要原因在於,它采用了強化學習進行後訓練——特別是基於人類反饋的強化學習(RLHF)。
RLHF傾向於降低模型的熵值,因為其主要目標之壹是降低「幻覺」的發生率,而這種「幻覺」通常源於采樣過程中的隨機性。
理論上,壹個熵值為零的模型可以完全避免「幻覺」,但這樣的模型實際上就變成了訓練數據集的簡單檢索工具,而非真正的生成模型。
下面是幾個向ChatGPT提出查詢的示例,以及對應輸出token的熵值:
根據
,可以估計這些輸出中約有73%到94%的內容,對應於訓練數據集中的信息。
如果考慮RLHF的影響(導致
),這個估計值可能偏高,但熵值與訓練數據使用量之間的相關性依然拾分明顯。
例如,即使不了解ChatGPT的訓練數據集,我們也會發現它講的笑話全是靠記憶,因為這些內容幾乎都是以確定性方式生成的。
這種分析方法雖然比較粗略,但它揭示了訓練數據集中的版權內容如何影響模型輸出。
但更重要的是,這種影響拾分深遠。即使是對因素(3)做出更寬松的解釋,也難以支持「合理使用」的主張。
最終,Suchir Balaji得出結論:從這4個因素來看,它們幾乎都不支持「ChatGPT在合理使用訓練數據」。
10月23日,Balaji發出這篇博客。
壹個月後,他死於自己的公寓。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見