人工智能公司是如何靠盜版書來訓練大模型的?

0 評論 449 瀏覽 0 收藏 9 分鐘
🔗 B端产品经理需要更多地进行深入的用户访谈、调研、分析,而C端产品经理需要更多地快速的用户测试、反馈、迭代

近期曝光的法院文件顯示,Meta和OpenAI等人工智能公司曾使用盜版書籍來訓練其大語言模型,引發(fā)了關于版權和“合理使用”的激烈討論,本文將深入探討這一爭議行為及其背后的法律和道德困境。

法院文件顯示,對人工智能公司來說,“書籍實際上比網(wǎng)絡數(shù)據(jù)更重要”。

當Meta的員工開始開發(fā)其旗艦人工智能模型Llama 3時,他們面臨了一個簡單的道德問題。為了與ChatGPT等產(chǎn)品競爭,該程序需要在大量高質(zhì)量文本上進行訓練,而合法獲取所有這些文本可能需要時間。

他們是否應該選擇盜版呢?

Meta的員工與多家公司就授權書籍和研究論文進行了溝通,但他們對這些選擇并不滿意。一名研究科學家在公司內(nèi)部聊天中寫道:“這似乎太貴了”,這是針對一個潛在交易的評論,法院記錄顯示。

Llama團隊的一名高級經(jīng)理補充說,這一過程也將“極其緩慢”:“他們需要4周以上的時間來提供數(shù)據(jù)?!?/p>

在另一份法律文件中,一名工程總監(jiān)指出了這種方法的另一個缺點:“問題是人們沒有意識到,如果我們授權了一本書,我們就無法利用合理使用策略”,這是對使用版權書籍訓練人工智能可能的法律辯護的引用。

昨晚公布的法院文件顯示,該高級經(jīng)理認為,對Meta來說,“盡快獲得書籍”是“非常重要的”,因為“書籍實際上比網(wǎng)絡數(shù)據(jù)更重要”。

Meta的員工將注意力轉(zhuǎn)向了Library Genesis(LibGen),這是在線流傳的最大的盜版圖書館之一。

它目前包含超過750萬本書籍和8100萬篇研究論文。

最終,Meta的團隊獲得了“MZ”的許可——這顯然是對Meta首席執(zhí)行官馬克·扎克伯格的引用來下載并使用該數(shù)據(jù)集。

這一行為以及此處概述和引用的其他信息,最近成為公開記錄的一部分。這是因為在Sarah Silverman、Junot Díaz和其他LibGen書籍作者對Meta提起的版權侵權訴訟中,Meta的一些內(nèi)部通信被解封。

最近在另一場由類似作者群體提起的訴訟中,還揭露了OpenAI也曾使用過LibGen。(Meta的一位發(fā)言人拒絕置評,理由是針對該公司的訴訟正在進行中。

在本文發(fā)表后,OpenAI的一位發(fā)言人在回應中表示:“如今為ChatGPT和我們的API提供支持的模型并不是使用這些數(shù)據(jù)集開發(fā)的。

這些數(shù)據(jù)集是由已經(jīng)離開OpenAI的前員工創(chuàng)建的,最后一次使用是在2021年?!保┲钡浆F(xiàn)在,盡管大多數(shù)人可能已經(jīng)接觸過使用該圖書館內(nèi)容的生成式人工智能產(chǎn)品,但很少有人能夠了解其內(nèi)容。

根據(jù)扎克伯格的說法,“Meta AI”助手已經(jīng)被數(shù)億人使用(它嵌入在Meta的產(chǎn)品中,如Facebook、WhatsApp和Instagram)。

為了展示Meta和OpenAI所使用的作品類型,我訪問了LibGen的元數(shù)據(jù)快照,在不下載或分發(fā)書籍和研究論文本身的情況下揭示圖書館的內(nèi)容,并用它創(chuàng)建了一個你可以在此處搜索的交互式數(shù)據(jù)庫。

需要注意一些重要的注意事項。我們無法確切知道Meta和OpenAI在訓練模型時使用了LibGen的哪些部分,以及他們可能決定排除哪些部分。

此外,該數(shù)據(jù)庫還在不斷增長。我的LibGen快照是在2025年1月拍攝的,根據(jù)訴訟,這比Meta訪問它的時間晚了一年多,因此這里的一些標題在那時可能還無法下載。

LibGen的元數(shù)據(jù)相當混亂,其中存在許多錯誤。

盡管我已經(jīng)以各種方式清理了數(shù)據(jù),但由于LibGen規(guī)模龐大且錯誤眾多,很難修復所有問題。

盡管如此,該數(shù)據(jù)庫仍然展示了LibGen訓練模型所使用的盜版材料的驚人規(guī)模?!稁靻獭罚–ujo)、《古拉格群島》(The Gulag Archipelago)、瓊·迪迪翁(Joan Didion)的多部作品被翻譯成多種語言、一篇名為《網(wǎng)絡末日生存指南》(Surviving a Cyberapocalypse)的學術論文——所有這些內(nèi)容都在這里,還有數(shù)百萬其他作品可供人工智能公司輸入到他們的模型中。

Meta和OpenAI都在法庭上辯稱,未經(jīng)許可使用版權作品訓練生成式人工智能模型屬于“合理使用”,因為大型語言模型(LLMs)將原始材料“轉(zhuǎn)化為”新的作品。

這一辯護引發(fā)了棘手的問題,距離解決可能還有很長的路要走。

然而,LibGen的使用提出了另一個問題。批量下載通常使用BitTorrent完成,這種文件共享協(xié)議因匿名性而受到盜版者的歡迎,而使用BitTorrent下載通常涉及同時向其他用戶上傳。

內(nèi)部通信顯示,Meta的員工確實使用了BitTorrent下載LibGen,這意味著Meta不僅可能接觸了盜版材料,還可能將其分發(fā)給其他人——根據(jù)版權法,這已被明確界定為非法行為,無論法院對使用版權材料訓練生成式人工智能的決定如何。

(Meta聲稱其“采取了預防措施,不‘傳播’任何下載的文件”,并且“沒有任何事實表明”它將書籍分發(fā)給了其他人。)OpenAI的下載方式目前尚不清楚。Meta的員工在其內(nèi)部通信中承認,使用LibGen訓練Llama存在“中高法律風險”,并討論了各種“緩解措施”以掩蓋他們的活動。

一名員工建議開發(fā)人員“刪除明確標記為盜版/被盜的數(shù)據(jù)”并“不要對外引用任何訓練數(shù)據(jù)的使用,包括LibGen”。

另一名員工討論了刪除任何包含ISBN、版權、?、保留所有權利的行。Llama團隊的一名高級經(jīng)理建議對Llama進行微調(diào),使其“拒絕回答‘復制《哈利·波特與魔法石》的前三頁’這樣的查詢”。

一名員工評論說,“從公司筆記本電腦上使用BitTorrent下載感覺不太對勁”。

很容易理解為什么LibGen對生成式人工智能公司具有吸引力,因為它們的產(chǎn)品需要大量的文本。LibGen的規(guī)模龐大,比Books3(我在2023年揭露的另一個盜版書籍收藏)大得多。

LibGen中的其他作品包括薩莉·魯尼(Sally Rooney)、珀西瓦爾·埃弗雷特(Percival Everett)、華·胡(Hua Hsu)、喬納森·海特(Jonathan Haidt)和雷切爾·孔(Rachel Khong)等知名作者的最新文學作品和非虛構作品,以及來自《自然》(Nature)、《科學》(Science)和《柳葉刀》(The Lancet)等頂級學術期刊的文章。

它還包括來自愛思唯爾(Elsevier)和Sage Publications等頂級學術期刊出版商的數(shù)百萬篇文章。(The Atlantic)

本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】,微信公眾號:【AI新智能】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
11901人已学习12篇文章
随着市场竞争的加剧,越来越多的企业为了提高内部管控的效率,开始自建或引入内部管理系统来提升公司的效率。本专题的文章分享了企业管理系统设计指南。
专题
13270人已学习13篇文章
随着数字化的发展,企业都在进行数字化转型发展。那么,对于传统第三产业企业来讲,数字化升级是什么?如何做数字化?本专题的文章分享了作者的见解。
专题
112436人已学习29篇文章
透过别人的项目总结,学习项目管理项目设计项目流程经验。
专题
39679人已学习26篇文章
近年来“物联网”的势头正足,5G网络宣告展开,未来的浪潮中一定会有“语音交互产品”的一席之地。
专题
13849人已学习12篇文章
为了推动公司业务的正常运转操作,我们需要建立一定的业务模型来推动运作。本专题的文章分享了如何构建业务模型。
专题
14266人已学习13篇文章
无论是对于需求的挖掘,还是对于产品的设计迭代,用户访谈这个环节都是必不可少的。本专题的文章分享了如何做好用户访谈。