-
日期: 2024-12-14 | 來源: 新智元 | 有0人參與評論 | 字體: 小 中 大
當然,OpenAI和谷歌這樣的模型開發商,也和Stack Overflow、Reddit、美聯社、News Corp等簽訂了數據許可協議。
但簽署了協議,數據就是「合理使用」嗎?
總之,鑒於數據許可市場的存在,在未獲得類似許可協議的情況下使用受版權保護的數據進行訓練也構成了市場利益損害,因為這剝奪了版權持有人的合法收入來源。
因素(1):使用目的和性質,是商業性質,還是教育目的
書評家可以在評論中引用某書的片段,雖然這可能會損害後者的市場價值,但仍被視為合理使用,這是因為,贰者沒有替代或競爭關系。
這種替代使用和非替代使用之間的區別,源自1841年的「Folsom訴Marsh案」,這是壹個確立合理使用原則的裡程碑案例。
問題來了——作為壹款商業產品,ChatGPT是否與用於訓練它的數據具有相似的用途?
顯然,在這個過程中,ChatGPT創造了與原始內容形成直接競爭的替代品。
比如,如果想知道「為什麼在浮點數運算中,0.1+0. 2=0.30000000000000004?」這種編程問題,就可以直接向ChatGPT(左)提問,而不必再去搜索Stack Overflow(右)。
因素(2):受版權保護作品的性質
這壹因素,是各項標准中影響力最小的壹個,因此不作詳細討論。
因素(3):使用部分相對於整體受保護作品的數量及實質性
考慮這壹因素,可以有兩種解釋——
(1)模型的訓練輸入包含了受版權保護數據的完整副本,因此「使用量」實際上是整個受版權保護作品。這不利於「合理使用」。
(2)模型的輸出內容幾乎不會直接復制受版權保護的數據,因此「使用量」可以視為接近零。這種觀點支持「合理使用」。
哪壹種更符合現實?
為此,作者采用信息論,對此進行了量化分析。
在信息論中,最基本的計量單位是比特,代表著壹個是/否的贰元選擇。
在壹個分布中,平均信息量稱為熵,同樣以比特為單位(根據香農的研究,英文文本的熵值約在每個字符0.6至1.3比特之間)。
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見