韩国三级a∨在线观看,97人妻人人揉人人躁人人潮喷,最新无码在线无码超碰

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

人工智能公司是如何靠盜版書來訓練大模型的？

AI新智能

2025-03-25

0 評論 449 瀏覽 0 收藏

近期曝光的法院文件顯示，Meta和OpenAI等人工智能公司曾使用盜版書籍來訓練其大語言模型，引發(fā)了關于版權和“合理使用”的激烈討論，本文將深入探討這一爭議行為及其背后的法律和道德困境。

法院文件顯示，對人工智能公司來說，“書籍實際上比網(wǎng)絡數(shù)據(jù)更重要”。

當Meta的員工開始開發(fā)其旗艦人工智能模型Llama 3時，他們面臨了一個簡單的道德問題。為了與ChatGPT等產(chǎn)品競爭，該程序需要在大量高質(zhì)量文本上進行訓練，而合法獲取所有這些文本可能需要時間。

他們是否應該選擇盜版呢？

Meta的員工與多家公司就授權書籍和研究論文進行了溝通，但他們對這些選擇并不滿意。一名研究科學家在公司內(nèi)部聊天中寫道：“這似乎太貴了”，這是針對一個潛在交易的評論，法院記錄顯示。

Llama團隊的一名高級經(jīng)理補充說，這一過程也將“極其緩慢”：“他們需要4周以上的時間來提供數(shù)據(jù)?！?/p>

在另一份法律文件中，一名工程總監(jiān)指出了這種方法的另一個缺點：“問題是人們沒有意識到，如果我們授權了一本書，我們就無法利用合理使用策略”，這是對使用版權書籍訓練人工智能可能的法律辯護的引用。

做到这三点挑战，产品经理只会不断升值

好的产品经理是很稀缺的，懂用户、懂商业、懂数据的产品经理走出互联网，依然是抢手货。相反，如果只做简单传话、低效执行、浅层思考的产品经理，恐怕走不过未来3-5年的洪流。

查看详情 >

昨晚公布的法院文件顯示，該高級經(jīng)理認為，對Meta來說，“盡快獲得書籍”是“非常重要的”，因為“書籍實際上比網(wǎng)絡數(shù)據(jù)更重要”。

Meta的員工將注意力轉(zhuǎn)向了Library Genesis（LibGen），這是在線流傳的最大的盜版圖書館之一。

它目前包含超過750萬本書籍和8100萬篇研究論文。

最終，Meta的團隊獲得了“MZ”的許可——這顯然是對Meta首席執(zhí)行官馬克·扎克伯格的引用來下載并使用該數(shù)據(jù)集。

這一行為以及此處概述和引用的其他信息，最近成為公開記錄的一部分。這是因為在Sarah Silverman、Junot Díaz和其他LibGen書籍作者對Meta提起的版權侵權訴訟中，Meta的一些內(nèi)部通信被解封。

最近在另一場由類似作者群體提起的訴訟中，還揭露了OpenAI也曾使用過LibGen。（Meta的一位發(fā)言人拒絕置評，理由是針對該公司的訴訟正在進行中。

在本文發(fā)表后，OpenAI的一位發(fā)言人在回應中表示：“如今為ChatGPT和我們的API提供支持的模型并不是使用這些數(shù)據(jù)集開發(fā)的。

這些數(shù)據(jù)集是由已經(jīng)離開OpenAI的前員工創(chuàng)建的，最后一次使用是在2021年?！保┲钡浆F(xiàn)在，盡管大多數(shù)人可能已經(jīng)接觸過使用該圖書館內(nèi)容的生成式人工智能產(chǎn)品，但很少有人能夠了解其內(nèi)容。

根據(jù)扎克伯格的說法，“Meta AI”助手已經(jīng)被數(shù)億人使用（它嵌入在Meta的產(chǎn)品中，如Facebook、WhatsApp和Instagram）。

為了展示Meta和OpenAI所使用的作品類型，我訪問了LibGen的元數(shù)據(jù)快照，在不下載或分發(fā)書籍和研究論文本身的情況下揭示圖書館的內(nèi)容，并用它創(chuàng)建了一個你可以在此處搜索的交互式數(shù)據(jù)庫。

需要注意一些重要的注意事項。我們無法確切知道Meta和OpenAI在訓練模型時使用了LibGen的哪些部分，以及他們可能決定排除哪些部分。

此外，該數(shù)據(jù)庫還在不斷增長。我的LibGen快照是在2025年1月拍攝的，根據(jù)訴訟，這比Meta訪問它的時間晚了一年多，因此這里的一些標題在那時可能還無法下載。

LibGen的元數(shù)據(jù)相當混亂，其中存在許多錯誤。

盡管我已經(jīng)以各種方式清理了數(shù)據(jù)，但由于LibGen規(guī)模龐大且錯誤眾多，很難修復所有問題。

盡管如此，該數(shù)據(jù)庫仍然展示了LibGen訓練模型所使用的盜版材料的驚人規(guī)模?！稁靻獭罚–ujo）、《古拉格群島》（The Gulag Archipelago）、瓊·迪迪翁（Joan Didion）的多部作品被翻譯成多種語言、一篇名為《網(wǎng)絡末日生存指南》（Surviving a Cyberapocalypse）的學術論文——所有這些內(nèi)容都在這里，還有數(shù)百萬其他作品可供人工智能公司輸入到他們的模型中。

Meta和OpenAI都在法庭上辯稱，未經(jīng)許可使用版權作品訓練生成式人工智能模型屬于“合理使用”，因為大型語言模型（LLMs）將原始材料“轉(zhuǎn)化為”新的作品。

這一辯護引發(fā)了棘手的問題，距離解決可能還有很長的路要走。

然而，LibGen的使用提出了另一個問題。批量下載通常使用BitTorrent完成，這種文件共享協(xié)議因匿名性而受到盜版者的歡迎，而使用BitTorrent下載通常涉及同時向其他用戶上傳。

內(nèi)部通信顯示，Meta的員工確實使用了BitTorrent下載LibGen，這意味著Meta不僅可能接觸了盜版材料，還可能將其分發(fā)給其他人——根據(jù)版權法，這已被明確界定為非法行為，無論法院對使用版權材料訓練生成式人工智能的決定如何。

（Meta聲稱其“采取了預防措施，不‘傳播’任何下載的文件”，并且“沒有任何事實表明”它將書籍分發(fā)給了其他人。）OpenAI的下載方式目前尚不清楚。Meta的員工在其內(nèi)部通信中承認，使用LibGen訓練Llama存在“中高法律風險”，并討論了各種“緩解措施”以掩蓋他們的活動。

一名員工建議開發(fā)人員“刪除明確標記為盜版/被盜的數(shù)據(jù)”并“不要對外引用任何訓練數(shù)據(jù)的使用，包括LibGen”。

一名員工評論說，“從公司筆記本電腦上使用BitTorrent下載感覺不太對勁”。

很容易理解為什么LibGen對生成式人工智能公司具有吸引力，因為它們的產(chǎn)品需要大量的文本。LibGen的規(guī)模龐大，比Books3（我在2023年揭露的另一個盜版書籍收藏）大得多。

LibGen中的其他作品包括薩莉·魯尼（Sally Rooney）、珀西瓦爾·埃弗雷特（Percival Everett）、華·胡（Hua Hsu）、喬納森·海特（Jonathan Haidt）和雷切爾·孔（Rachel Khong）等知名作者的最新文學作品和非虛構作品，以及來自《自然》（Nature）、《科學》（Science）和《柳葉刀》（The Lancet）等頂級學術期刊的文章。

它還包括來自愛思唯爾（Elsevier）和Sage Publications等頂級學術期刊出版商的數(shù)百萬篇文章。（The Atlantic）

本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】，微信公眾號：【AI新智能】，原創(chuàng)/授權發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App