-
日期: 2026-02-08 | 來源: 財經雜志 | 有0人參與評論 | 專欄: 潛規則 | 字體: 小 中 大
Library Genesis被稱為“影子圖書館”的鼻祖。2017年,美國紐約法院判決Library Genesis賠償出版商愛思唯爾1500萬美元。2023年,多家美國教科書出版商再次起訴 LibGen,要求其移交域名或將其從互聯網上徹底抹除。
Sci-Hub 專注學術論文,目前英國、法國、德國等國家的法院已下令所有主要互聯網供應商(ISP)封鎖 Sci-Hub。Sci-Hub 自 2020年底起已基本停止大規模上傳新論文。
2024年2月,在與Anna’s Archive達成合作肆個月後,英偉達發布了當時旗下最強大的大模型Nemotron-4 15B。公開資料顯示,Nemotron-4 15B擁有150億參數,使用了8萬億文本標注數據進行預訓練。英偉達方面並未披露該大模型的訓練數據來源,不過曾公開表示該模型訓練數據中70%來自“英語自然語言”數據集,該數據集本身包含4.6%的圖書內容。起訴書認為,據此推算,英偉達的訓練數據需包含數百萬冊圖書。除非使用了盜版資源,否則該公司不可能獲得足量的圖書數據。
此外,起訴書顯示,通過NeMo Megatron框架和BigNLP平台,英偉達向客戶提供了自動下載並預處理The Pile數據集的腳本。英偉達還向客戶Persimmon AI Labs和亞馬遜提供了類似的下載和處理The Pile數據集的協助。
“影子圖書館”非法存儲並傳播海量圖書資源,願意提供付費的“優先級下載通道”,雖滿足了大模型開發者對優質數據的需求,但帶來了極大的侵權風險;針對訴訟,英偉達提交了正式動議,主張其行為屬於“合理使用”
大模型訓練需求撐起了盜版生意?
“影子圖書館”非法存儲並傳播大量高質量版權內容,也願意為大模型開發者提供付費的“優先級下載通道”。
Anna's Archive在其官網表示,“大語言模型依賴高質量數據才能蓬勃發展。我們擁有全球規模最大的圖書、論文、期刊等資源,這些正是最高質量的文本資源。我們提供高速的企業級訪問權限,以換取數萬美元級別的捐贈。”
這壹商業模式也為“影子圖書館”爭取了壹線生機。Anna's Archive在官網表示,不久前,“影子圖書館”瀕臨消亡。因訴訟壓力,收錄大量學術論文盜版資源的Sci-Hub已停止接收新作品。“隨著人工智能崛起,幾乎所有開發大語言模型的企業都聯系我們獲取數據訓練。我們已為約30家公司提供高速訪問權限。”
但使用盜版圖書資源為大模型公司帶來極大的侵權訴訟風險。美國版權局2025年5月發布的《版權與人工智能》系列報告指出,數據收集和預處理階段涉及下載、轉換和修改大量受版權保護的作品,無論數據來源是否為公開網站,均可能構成對復制權、編輯權、改編權的多重侵害,在商業用途情形下風險尤為突出。
2025年,美國法院對兩起版權人起訴大模型公司使用盜版圖書資源的案件作出判決。
2025年6月23日,美國北加利福尼亞地區法院就Andrea Bartz等作家起訴Anthropic的版權侵權訴訟案作出關於合理使用的裁決,認定使用受版權保護的作品進行人工智能訓練屬於合理使用。不過,從Library Genesis和Pirate Library Mirror等網站下載超過700萬本“明知是盜版”的電子版圖書的行為,則“本質上、不可救藥地構成侵權”,無法被合理使用原則所豁免。同年9月,有媒體報道稱,Anthropic已同意支付至少15億美元達成該案的和解協議。美國加州壹家法院已初步批准了這壹協議。這也將成為歷史上有公開報道的最大規模版權賠償案。
2025年6月25日,同樣是美國北加利福尼亞地區法院就Richard Kadrey等作家起訴Meta Platforms使用盜版圖書訓練大模型Llama構成版權侵權案作出簡易裁決,判決同樣認定Meta的行為構成合理使用。不過,法院判定Meta獲取並使用盜版作品的行為不單獨構成侵權,因為Meta將該等作品用於AI大模型訓練目的,此種使用屬於轉換性用途。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見