久久久噜噜噜久久人妻图片,久久久久精品网站

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶！

新智元

2024-04-07

1 評論 2879 瀏覽 7 收藏

2026年的數(shù)據(jù)荒越來越近，硅谷大廠們已經(jīng)為AI訓(xùn)練數(shù)據(jù)搶瘋了！它們紛紛豪擲十?dāng)?shù)億美元，希望把犄角旮旯里的照片、視頻、聊天記錄都給挖出來。不過，如果有一天AI忽然吐出了我們的自拍照或者隱私聊天，該怎么辦？
誰能想到，我們多年前的聊天記錄、社交媒體上的陳年照片，忽然變得價值連城，被大科技公司爭相瘋搶。

現(xiàn)在，硅谷大廠們已經(jīng)紛紛出動，買下所有能購買版權(quán)的互聯(lián)網(wǎng)數(shù)據(jù)，這架勢簡直要搶破頭了！

圖像托管網(wǎng)站Photobucket的陳年舊數(shù)據(jù)，本來已經(jīng)多年無人問津，但如今，它們正在被各大互聯(lián)網(wǎng)公司瘋搶，用來訓(xùn)練AI模型。

為此，科技巨頭們愿意拿出實打?qū)嵉恼娼鸢足y。比如，每張照片價值5美分到1美元，每個視頻價值超過1美元，具體情況去取決于買家和素材種類。

總之，為了購買AI訓(xùn)練數(shù)據(jù)，巨頭們已經(jīng)展開了一場地下競賽！

而最近鬧得轟轟烈烈的Meta圖像生成器大翻車事件，更是讓AI的訓(xùn)練數(shù)據(jù)「刻板印象」暴露無遺。

如果喂給模型的數(shù)據(jù)無法改變「偏見」，那各大公司要遭遇的輿論風(fēng)波，只怕少不了。

Meta的AI生圖工具畫不出來「亞洲男性和白人妻子」或「亞洲女性和白人丈夫」

一、巨頭狂砸數(shù)十億美元，只為買到數(shù)據(jù)「黃金」

根據(jù)路透社報道，在2000年代，Photobucket處于巔峰期，擁有7000萬用戶。而今天，這家頂級網(wǎng)站的用戶已經(jīng)驟降到了200萬人。

但生成式AI，給這家公司帶來了新生。

CEO Ted Leonard開心地透露，目前已經(jīng)有多家科技公司找上門來，愿意重金購買公司的130億份照片和視頻。

目的，當(dāng)然就是訓(xùn)練AI。

為了得到這些數(shù)據(jù)，各大公司都非常舍得割肉。

而且，他們還想要更多！據(jù)說，一位買家表示，自己想要超過10億個視頻，而這，已經(jīng)遠遠超出了Photobucket能提供的數(shù)量。

據(jù)粗略估計，Photobucket手中握著的數(shù)據(jù)，很可能價值數(shù)十億美元。

OpenAI陷起訴風(fēng)波，版權(quán)太敏感了

現(xiàn)在眼看著，大家的數(shù)據(jù)都不夠用了。

根據(jù)Epoch研究所的分析，到2026年，科技公司很可能會耗盡互聯(lián)網(wǎng)上所有的高質(zhì)量數(shù)據(jù)，因為他們消耗數(shù)據(jù)的速度，遠遠超過了數(shù)據(jù)的生成速度！

訓(xùn)練ChatGPT的數(shù)據(jù)，是從互聯(lián)網(wǎng)上免費抓取的。

Sora的訓(xùn)練數(shù)據(jù)來源不詳，CTO Murati接受采訪時支支吾吾的表現(xiàn)，險些又讓OpenAI大翻車。

雖然OpenAI表示，自己的做法完全合法，但前方還有一堆版權(quán)訴訟在等著他們。

而其他大科技公司都跟著學(xué)乖了，大家都在悄悄地為付費墻和登錄屏幕背后的鎖定內(nèi)容付費。

如今，無論是陳舊的聊天記錄，還是被遺忘的社交媒體上褪色的舊照片，忽然都變成了價值連城的東西。

而各大公司已經(jīng)紛紛出動，急于尋找版權(quán)所有者的授權(quán)。畢竟，私人收藏的東西，是無法抓取的。

外媒記者走訪了30多名專業(yè)人士，發(fā)現(xiàn)這背后隱藏的，是一個黃金市場。

雖然很多公司對于這個不透明的AI市場規(guī)模表示緘默，但Business Research Insights等研究人員認為，目前市場規(guī)模約為25億美元，并預(yù)測十年內(nèi)可能會增長近300億美元。

二、生成數(shù)據(jù)淘金熱，讓數(shù)據(jù)商樂開花

對科技公司來說，如果不能使用免費抓取的網(wǎng)頁數(shù)據(jù)檔案，比如Common Crawl，那成本會是一個很可怕的數(shù)字。

但是一連串版權(quán)訴訟和監(jiān)管熱潮，已經(jīng)讓他們別無選擇。

甚至，硅谷已經(jīng)出現(xiàn)了一個新興的行業(yè)——數(shù)據(jù)經(jīng)紀人。

而圖片、視頻供應(yīng)商們，也隨之賺得盆滿缽滿。

手快的公司，早就反應(yīng)過來了。ChatGPT在2022年底亮相的幾個月內(nèi)，Meta、谷歌、亞馬遜和蘋果就已經(jīng)迅速和圖片庫提供商Shutterstock達成協(xié)議，使用庫中的數(shù)億份圖像、視頻和音樂文件進行訓(xùn)練。

根據(jù)首席財務(wù)官透露的數(shù)據(jù)，這些交易從2500萬美元到5000萬美元不等。

而Shutterstock的競爭對手Freepik，也已經(jīng)有了兩位大買家，2億張圖片檔案中的大部分，會以2至4美分的價格授權(quán)。

OpenAI當(dāng)然也不會落后，它不僅是Shutterstock的早期客戶，還與包括美聯(lián)社在內(nèi)的至少四家新聞機構(gòu)簽署了許可協(xié)議。

三、讓內(nèi)容「合乎道德」

同時興起的，還有AI數(shù)據(jù)定制行業(yè)。

這批公司獲得了與播客、短視頻和與數(shù)字助理互動等現(xiàn)實世界內(nèi)容的授權(quán)，同時還建立了短期合同工網(wǎng)絡(luò)，從頭開始定制視覺效果和語音樣本。

作為代表之一的Defined.ai，已經(jīng)把自己的內(nèi)容賣給了谷歌、Meta、蘋果、亞馬遜、微軟等多家科技大廠。

其中，一張圖片賣1到2美元，一部短視頻賣2到4美元，一部長片每小時可以賣到100到300美元，文本的市價則是每字0.001美元。

而比較麻煩的裸體圖像，售價為5到7美元，因為還需要后期處理。

而這些照片、播客和醫(yī)療數(shù)據(jù)的所有者，也會獲得總交易額20%至30%的費用。

一位巴西數(shù)據(jù)商表示，為了獲得犯罪現(xiàn)場、沖突暴力和手術(shù)的圖像，他需要從警察、自由攝影記者和醫(yī)學(xué)生手里去買。

他補充說，他的公司雇用了習(xí)慣于看到暴力傷害的護士來脫敏和標注這些圖像，這對未經(jīng)訓(xùn)練的眼睛來說是令人不安的。

而將圖像脫敏、標注的工作，則交給慣于看到暴力傷害的護士，畢竟未經(jīng)訓(xùn)練的人眼看到這些圖像，會很不安。

然而，這些AI模型的「燃料」，很可能會引發(fā)嚴重的問題，比如——吐出用戶隱私。

專家發(fā)現(xiàn)，AI會反芻訓(xùn)練數(shù)據(jù)，比如，它們會吐出Getty Images水印，逐字輸出紐約時報文章的段落，甚至再現(xiàn)真人圖像。

Getty Images指責(zé)Stability AI「以驚人的規(guī)模肆無忌憚地侵犯它的知識產(chǎn)權(quán)」

也就是說，幾十年前某人發(fā)布的私人照片或私密想法，很可能在不知情的情況下，被AI模型原樣吐了出來！

這次「ChatGPT在回復(fù)中泄露陌生男子自拍照事件」，讓大家頗為恐慌

這些隱患，目前還沒有有效方法解決。

調(diào)查顯示，用戶愿意每月多付1美元，讓自己的個人數(shù)據(jù)不被第三方使用

四、Altman，也看上了合成數(shù)據(jù)

另外，Sam Altman也早看到了合成數(shù)據(jù)的未來。

這些數(shù)據(jù)不是人類直接創(chuàng)造的，而是由AI模型生成的文本、圖像和代碼，也就是說，這些系統(tǒng)通過學(xué)習(xí)自己產(chǎn)生的內(nèi)容來進步。

既然AI能創(chuàng)造出接近人類的文本，當(dāng)然也就能自產(chǎn)自銷，幫自己進化成更先進的版本。

只要我們能夠跨過合成數(shù)據(jù)的關(guān)鍵閾值，即讓模型能夠自主創(chuàng)造出高質(zhì)量的合成數(shù)據(jù)，那么一切問題都將迎刃而解。

——Sam Altman

不過，這件事真的這么容易嗎？

人工智能研究者們已經(jīng)研究合成數(shù)據(jù)多年，但要構(gòu)建一個能自我訓(xùn)練的人工智能系統(tǒng)并非易事。

專家發(fā)現(xiàn)，模型如果只依賴于自我生成的數(shù)據(jù)，可能會不斷重復(fù)自己的錯誤和局限，陷入一個自我加強的循環(huán)中。

這些系統(tǒng)所需的數(shù)據(jù)，就像是在叢林中尋找一條路徑，如果它們僅僅依賴于合成數(shù)據(jù)，就可能在叢林里迷路。

——前OpenAI研究員、現(xiàn)任不列顛哥倫比亞大學(xué)計算機科學(xué)教授Jeff Clune

對此，OpenAI正在探索如何讓兩個不同的人工智能模型協(xié)作，共同生成更高質(zhì)量、更可靠的合成數(shù)據(jù)。其中一個負責(zé)生成數(shù)據(jù)，另一個則負責(zé)評估。

這種方法是否有效，還未可知。

五、「規(guī)?！笽s All You Need

數(shù)據(jù)為什么對AI模型這么重要？這要從下面這篇論文說起。

2020年1月，約翰斯·霍普金斯大學(xué)的理論物理學(xué)家Jared Kaplan與9位OpenAI研究人員共同發(fā)表了一篇具有里程碑意義的人工智能論文。

他們得出了一個明確的結(jié)論：訓(xùn)練大語言模型所用的數(shù)據(jù)越多，其性能就越好。

正如一個學(xué)生通過閱讀更多書籍能學(xué)到更多知識一樣，大語言模型能通過更多的信息更精確地識別文本模式。

很快，「只要規(guī)模足夠大，一切就皆有可能」便成為了AI領(lǐng)域的共識。

論文地址：https://arxiv.org/abs/2001.08361

2020年11月，OpenAI推出的GPT-3，便利用了當(dāng)時最為龐大的數(shù)據(jù)進行訓(xùn)練——約3000億個token。

在吸收了這些數(shù)據(jù)后，GPT-3展現(xiàn)出了驚人的文本生成能力——它不僅可以撰寫博客文章、詩歌，甚至還能編寫自己的計算機程序。

但如今看來，這個數(shù)據(jù)集的規(guī)模就顯得相當(dāng)小了。

到了2022年，DeepMind將訓(xùn)練數(shù)據(jù)直接拉到了1.4萬億個token，比Kaplan博士在論文中預(yù)測的還要多。

然而，這一記錄并未保持太久。

2023年，谷歌發(fā)布的PaLM 2，在訓(xùn)練token上更是達到了3.6萬億——幾乎是牛津大學(xué)博德利圖書館自1602年以來收集手稿數(shù)量的兩倍。

六、為訓(xùn)GPT-4，OpenAI白嫖100萬+小時YouTube視頻

但正如OpenAI的CEO Sam Altman所說，AI終究會消耗完互聯(lián)網(wǎng)上所有可用的數(shù)據(jù)資源。

這不是預(yù)言，也不是危言聳聽——因為Altman本人就曾親眼目睹過它的發(fā)生。

在OpenAI，研究團隊多年來一直在收集、清理數(shù)據(jù)，并將其匯集成巨大的文本庫，用以訓(xùn)練公司的語言模型。

他們從GitHub這個計算機代碼庫中提取信息，收集了國際象棋走法的數(shù)據(jù)庫，并利用Quizlet網(wǎng)站上關(guān)于高中考試和作業(yè)的數(shù)據(jù)。

然而，到了2021年底，這些數(shù)據(jù)資源已經(jīng)耗盡。

為了下一代AI模型的開發(fā)，總裁Brockman決定親自披掛上陣。

在他的帶領(lǐng)下，團隊開發(fā)出了一款全新名的語音識別工具Whisper，可以快速準確地轉(zhuǎn)錄播客、有聲讀物和視頻。

有了Whisper之后，OpenAI很快便轉(zhuǎn)錄了超過100萬小時的YouTube視頻，而Brockman更是親自參與到了收集工作當(dāng)中。

最終的故事大家都知道了，在如此高質(zhì)量數(shù)據(jù)的加持下，地表最強的GPT-4橫空出世。

七、谷歌：我也一樣

有趣的是，谷歌其實早就知道OpenAI在利用YouTube視頻收集數(shù)據(jù)，但從未想過要出面阻止。

你猜的沒錯，谷歌也在利用YouTube視頻來訓(xùn)練自家的AI模型。

而如果要對OpenAI的行為大加指責(zé)，他們不僅會暴露自己，甚至還會引發(fā)公眾更加強烈的反應(yīng)。

不僅如此，那些儲存在Google Docs、Google Sheets等應(yīng)用里的數(shù)十億文字數(shù)據(jù)，也是谷歌的目標。

2023年6月，谷歌的法律部門要求隱私團隊修改服務(wù)條款，從而擴展公司對消費者數(shù)據(jù)的使用權(quán)限。

也就是，為公司能夠利用用戶公開分享的內(nèi)容開發(fā)一系列的AI產(chǎn)品，鋪平道路。

據(jù)員工透露，他們被明確指示要在7月發(fā)布新的條款，因為那時大家的注意力都在即將到來的假期上。

7月1日發(fā)布的新條款不僅允許谷歌使用這些數(shù)據(jù)開發(fā)語言模型，還能用于創(chuàng)建像Google Translate、Bard和Cloud AI等廣泛的AI技術(shù)和產(chǎn)品

八、Meta數(shù)據(jù)不足，高管被迫天天開會

同樣在追趕OpenAI的，還有Meta。

為了能夠超越ChatGPT，小扎不分晝夜地催促公司的高管和工程師加快開發(fā)一個能與之競爭的聊天機器人。

然而，到了去年年初，Meta也遇到了和其他競爭者一樣的難題——數(shù)據(jù)不足。

盡管Meta掌管著龐大的社交網(wǎng)絡(luò)資源，但不僅用戶沒有保留帖子的習(xí)慣（很多人會刪除自己之前的發(fā)布），而且Facebook畢竟也不是一個大家習(xí)慣發(fā)高質(zhì)量長文的地方。

此前，小扎曾自豪聲稱Meta Platforms的訪問數(shù)據(jù)，是Meta AI的一大優(yōu)勢

生成式AI副總裁Ahmad Al-Dahle向高層透露，為了開發(fā)出一個模型，他的團隊幾乎利用了網(wǎng)絡(luò)上所有可找到的英文書籍、論文、詩歌和新聞文章。

但這些還遠遠不夠。

2023年3月到4月，公司的商務(wù)發(fā)展負責(zé)人、工程師和律師幾乎每天都在密集會議，試圖找到解決方案。

他們考慮了為獲取新書的完整版權(quán)支付每本10美元的可能性，并討論了收購出版了斯蒂芬·金等作者作品的Simon & Schuster的想法。

與此同時，他們還討論了未經(jīng)允許就對網(wǎng)絡(luò)上的書籍、論文等作品進行摘要的做法，并考慮進一步「吸收」更多內(nèi)容，哪怕這可能招致法律訴訟。

好在，作為行業(yè)標桿的OpenAI，就在未經(jīng)授權(quán)的情況下使用了版權(quán)材料，而Meta或許可以參考這一「市場先例」。

根據(jù)錄音，Meta的高管們決定借鑒2015年作家協(xié)會（Authors Guild）對谷歌的法庭判決。

在那個案例中，谷歌被允許掃描、數(shù)字化并在在線數(shù)據(jù)庫中編目書籍，因為它僅在線上復(fù)制了作品的一小部分，并且改變了原作，這被認定為合理使用。

在會議中，Meta的律師們表示，用數(shù)據(jù)訓(xùn)練人工智能系統(tǒng)應(yīng)當(dāng)同樣被視為合理使用。

但即便如此，Meta似乎還是沒攢夠數(shù)據(jù)……

AI生圖工具拒絕「白人和亞洲人」合影

最近，外媒The Verge的記者在多次嘗試后發(fā)現(xiàn)，Meta的AI圖像生成工具并不能創(chuàng)建一張東亞男性和白人女性同框的圖片。

不管prompt是「亞洲男性與白人朋友」、「亞洲男性與白人妻子」、「亞洲女性與白人丈夫」，還是經(jīng)過魔改的「一位亞洲男性和一位白人女性帶著狗微笑」，都于事無補。

當(dāng)他將「白人」改為「高加索人」時，結(jié)果依舊如此。

比如「亞洲男性和高加索女性的婚禮日」這個prompt，得到的卻是一張身穿西裝的亞洲男性與身著旗袍/和服混搭的亞洲女性的圖像……

AI居然難以想象亞洲人與白人并肩而立的場景，這著實有些匪夷所思。

而且，在生成的內(nèi)容中，還隱藏著更加微妙的偏見。

舉個例子，Meta總是將「亞洲女性」描繪成東亞面孔，似乎忽略了印度作為世界上人口最多國家的事實。與此同時，「亞洲男性」多為年長者，而亞洲女性卻總是年輕化。

相比之下，OpenAI加持的DALL-E 3，就完全沒有這個問題。

對此，有網(wǎng)友指出，出現(xiàn)這個問題的原因是Meta在模型訓(xùn)練時沒有輸入足夠多的場景示例。

簡而言之，問題不在于代碼本身，而在于模型訓(xùn)練時所使用的數(shù)據(jù)集不夠豐富，沒有充分覆蓋所有可能的場景。

但更深層次的是，AI的行為是其創(chuàng)造者偏見的體現(xiàn)。

在美國媒體中，「亞洲人」通常就是指東亞人，不符合這一單一形象的亞洲人幾乎從文化意識中被抹去，即便是符合的人也在主流媒體中被邊緣化。

而這，只是因數(shù)據(jù)造成的AI偏見的一隅而已。

參考資料：

https://www.reuters.com/technology/inside-big-techs-underground-race-buy-ai-training-data-2024-04-05/

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

https://www.theverge.com/2024/4/3/24120029/instagram-meta-ai-sticker-generator-asian-people-racism

編輯：Aeneas 好困

來源公眾號：新智元（ID：AI_era），“智能+”中國主平臺，致力于推動中國從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

新智元

"智能+"中國主平臺，致力于推動中國從"互聯(lián)網(wǎng)+"邁向"智能+"

111篇作品 278953總閱讀量

加薪之路：高級數(shù)據(jù)分析師必備的八大能力

11-304156 瀏覽

大廠搶灘的元宇宙，涼了？

02-273112 瀏覽

B端體驗設(shè)計師如何做精力管理

04-192420 瀏覽

抖音、快手、頭條、公眾號，小紅書，做自媒體，哪個更容易賺錢？

07-198368 瀏覽

小程序起飛：4步打造從0到1的增長引擎

07-266713 瀏覽

評論

白桃烏龍茶

細思極恐

最近來自廣東回復(fù)

刷屏朋友圈的「神秘亂碼」，到底什么來頭？

02-062689 瀏覽
2022年爆款直播間盤點：有人長紅，有人消失

01-112777 瀏覽
我該如何做好B端業(yè)務(wù)，這是與幾位牛人對談的要點總結(jié)

06-147317 瀏覽

你说，品牌是什么？

产品体验报告，是体验者在深入了解某个产品的商业模式、使用场景、产品功能等方面后，所作出的先有深度再到广度的图文分析报告。本专题的文章分享了不同产品的体验报告。

专题

34709人已学习13篇文章

用户痛点二三事

有多少用户痛点，你是听回来的，而不是经过深思过后找出来的。

信息流背后有着怎样的逻辑和策略？

本专题的文章分享了互联网金融风控体系的设计指南。

专题

12881人已学习11篇文章

如何对接和交付需求？

在工作中我们会跟客户/boss/用户等人对接需求，并把需求交付给设计师/开发等人，那么应该怎么做呢，本专题的文章分享了如何对接和交付需求。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶！

一、巨頭狂砸數(shù)十億美元，只為買到數(shù)據(jù)「黃金」

OpenAI陷起訴風(fēng)波，版權(quán)太敏感了

二、生成數(shù)據(jù)淘金熱，讓數(shù)據(jù)商樂開花

三、讓內(nèi)容「合乎道德」

四、Altman，也看上了合成數(shù)據(jù)

五、「規(guī)?！笽s All You Need

六、為訓(xùn)GPT-4，OpenAI白嫖100萬+小時YouTube視頻

七、谷歌：我也一樣

八、Meta數(shù)據(jù)不足，高管被迫天天開會