深度|SIGGRAPH 2024 黃仁勛 & 扎克伯格最新對談:信息流與推薦系統(tǒng)值得用生成式 AI 重做一遍
在SIGGRAPH 2024大會上,英偉達CEO黃仁勛與Meta創(chuàng)始人兼CEO扎克伯格的深入對談,為我們揭示了生成式AI在信息流和推薦系統(tǒng)中的應(yīng)用前景。這場對話不僅涵蓋了AI技術(shù)的前沿發(fā)展,還深入探討了虛擬世界和機器人技術(shù)的創(chuàng)新突破。本文將帶你走進這場科技盛宴,一探究竟。
7 月 30 日早上 6 點,英偉達 CEO黃仁勛與 Meta 創(chuàng)始人&CEO 扎克伯格在 SIGGRAPH 2024 上展開了對談,共同探討了加速計算、生成式 AI 以及推動下一波創(chuàng)新、虛擬世界和機器人技術(shù)突破的研究。
黃仁勛強調(diào)了英偉達在計算機圖形學(xué)、圖像處理、AI 和機器人技術(shù)方面的領(lǐng)導(dǎo)地位,特別是在 AI 與模擬交叉領(lǐng)域的突破。
他提到,英偉達通過 AI 幫助模擬變得更大規(guī)模、更快,并利用模擬環(huán)境生成合成數(shù)據(jù)。這些技術(shù)的結(jié)合,正在推動 AI 與模擬技術(shù)的融合發(fā)展。
扎克伯格指出,未來的 AI 將不僅用于內(nèi)容推薦系統(tǒng),還將用于即時內(nèi)容生成和從現(xiàn)有內(nèi)容中整合新內(nèi)容,這將徹底改變 Instagram 和 Facebook 等平臺的信息流和推薦系統(tǒng)。
扎克伯格還表示,智能眼鏡將成為下一代計算平臺的移動版,而混合現(xiàn)實頭戴設(shè)備則更像是工作站或游戲主機,Meta與 EssilorLuxottica 合作,推出了集成攝像頭、麥克風和 AI 對話功能的 Ray-Ban 智能眼鏡……
以下是這次對談快速整理的內(nèi)容,enjoy~
Jensen Huang
你知道嗎?90% 的博士生。所以, SIGGRAPH 的真正偉大之處在于,這是計算機圖形學(xué)、圖像處理、 AI 和機器人技術(shù)相結(jié)合的展示。一些公司多年來在這里展示和揭示了驚人的東西,從迪士尼、皮克斯、Adobe、Epic Games,當然還有 Nvidia ,我們在這里做了很多工作。今年,我們在 AI 和模擬的交叉點上介紹了20篇論文。我們正在利用 AI 來幫助模擬變得更大規(guī)模、更快,例如可微分物理學(xué)。我們使用模擬來創(chuàng)建合成數(shù)據(jù)生成的模擬環(huán)境,用于 AI 。
所以這兩個領(lǐng)域真的在結(jié)合起來,我們?yōu)槲覀冊谶@里所做的工作感到非常自豪。在 Meta ,你們做了很多了不起的 AI 工作。我覺得有趣的是,當媒體寫關(guān)于 Meta 在過去幾年跳入 AI 領(lǐng)域時,好像 FAIR( Meta 的 AI 研究實驗室)一直在工作,我們都在使用 Meta 的PyTorch,你們在計算機視覺、語言模型、實時翻譯方面的工作都是開創(chuàng)性的。我第一個問題是,你如何看待 Meta 今天在生成式 AI 方面的進展,以及你如何應(yīng)用它來增強你的運營或引入你提供的新功能?
Mark Zuckerberg
這里有很多東西要解讀。首先,很高興來到這里。Meta 已經(jīng)做了很多工作,并且在 SIGGRAPH 已經(jīng)有八年了。所以,我的意思是,我們相比你們是新來的。但那是在 2018 年。
我們展示了我們 VR 和混合現(xiàn)實頭戴設(shè)備的一些早期手部追蹤工作。我想我們已經(jīng)談了很多關(guān)于我們在 Codec Avat AR s 方面的進展,這些是我們希望能夠通過消費級頭戴設(shè)備來驅(qū)動的照片級逼真的化身,我們離這個目標越來越近了,所以對此非常興奮。還有我們在顯示系統(tǒng)方面所做的大量工作。
因此,我們展示了很多未來的原型和研究,以便使混合現(xiàn)實頭戴設(shè)備能夠非常薄,但具有相當先進的光學(xué)堆疊和顯示系統(tǒng),集成系統(tǒng)。通常這些是我們第一次在這里展示。所以,來到這里很興奮。這里我不僅在談?wù)撛钪娴臇|西,還有所有的 AI 部分,就像你說的,當我們開始 FAIR( AI 研究中心)時,那時候還是 Facebook ,現(xiàn)在是 Meta ,在我們開始現(xiàn)實實驗室之前,我們已經(jīng)在這方面工作了一段時間。所有關(guān)于生成式 AI 的東西,這是一個有趣的革命。
它最終會使我們所有的不同產(chǎn)品以一種有趣的方式發(fā)生變化。所以,我可以列舉一下,我們已經(jīng)擁有的主要產(chǎn)品線。像是 Instagram 和 Facebook 上的信息流和推薦系統(tǒng),我們已經(jīng)在這個旅程中,從只是關(guān)于與你的朋友聯(lián)系開始。排名總是很重要,因為即使你只是關(guān)注朋友,如果有人做了一些非常重要的事情,比如你表弟生了孩子,你希望它出現(xiàn)在頂部。如果我們把它埋在你的信息流中,你會很生氣。
所以排名很重要,但在過去幾年中,它變成了更多的是來自不同的公共內(nèi)容。推薦系統(tǒng)非常重要,因為現(xiàn)在,不僅僅是幾百或幾千個來自朋友的潛在候選帖子,還有數(shù)百萬條內(nèi)容。這變成了一個非常有趣的推薦問題。隨著生成式 AI 的發(fā)展,我們很快會進入一個區(qū)域,不僅是你今天在 Instagram 上看到的大部分內(nèi)容是來自世界各地與你的興趣匹配的推薦內(nèi)容,而不管你是否關(guān)注那些人。
未來很多東西都會使用這些工具來創(chuàng)建。有些是創(chuàng)作者使用工具來創(chuàng)建新內(nèi)容,最終會是為你即時創(chuàng)建的內(nèi)容,或者是從不同的現(xiàn)有內(nèi)容中整合和合成的內(nèi)容。所以,這只是一個例子,說明我們所做的核心部分將如何演變。而這已經(jīng)在過去20年中不斷演變。
Jensen Huang
人們會意識到,世界上最大的計算系統(tǒng)之一是推薦系統(tǒng)。
Mark Zuckerberg
但這是一個完全不同的路徑。它不是那種人們談?wù)摰纳墒?AI 的熱點,但就像所有的 Transformer 架構(gòu)一樣,它是一個類似的事情,只是建立越來越多的通用模型,將非結(jié)構(gòu)化數(shù)據(jù)嵌入特征中。
我的意思是,一個驅(qū)動質(zhì)量改進的重要因素是,你過去有不同的模型來處理不同類型的內(nèi)容。最近的一個例子是,我們有一個模型來排名和推薦reels,另一個模型來排名和推薦更長的格式的視頻。然后需要一些產(chǎn)品工作,使系統(tǒng)能夠顯示任何內(nèi)容在一行中。但你創(chuàng)建越通用的推薦模型,它們就會越好。
所以,我的一部分夢想是,有一天,你幾乎可以想象所有的 Facebook 或 Instagram 都是一個單一的 AI 模型,它統(tǒng)一了所有這些不同類型的內(nèi)容和系統(tǒng),實際上有不同的目標在不同的時間范圍內(nèi)。一部分是展示你今天想看的有趣內(nèi)容,另一部分是幫助你長期建立你的網(wǎng)絡(luò),比如你可能認識的人或你可能想關(guān)注的賬戶。
Jensen Huang
這些多模態(tài)模型在識別模式、弱信號等方面往往表現(xiàn)更好。所以有趣的是, AI 在你們公司如此深入,你們一直在構(gòu)建 GPU 基礎(chǔ)設(shè)施運行這些大型推薦系統(tǒng)。
不過一旦你開始進入這個領(lǐng)域,你就會深入其中。你深入其中,并且非常投入。如今,當我使用 WhatsApp 時,我感覺自己在與 WhatsApp 合作。我喜歡想象,當我打字時,它會生成圖像。我回過頭來改變我的話語,它又會生成其他圖像。
Mark Zuckerberg
那是上周的事情。非常興奮?,F(xiàn)在想象一下我,花了很多時間和我的女兒們在一起,想象她們是美人魚,過去一周里一直很有趣。我的意思是,這就是另一半。許多生成式 AI 的東西,一方面,它將成為所有我們長期以來的工作流程和產(chǎn)品的重大升級。
但另一方面,這些完全新的東西現(xiàn)在可以被創(chuàng)造出來。所以, Meta AI 的想法是擁有一個 AI 助手,可以幫助你完成我們世界中的不同任務(wù),并且非常具有創(chuàng)造性。像你所說的那樣。它們非常通用。所以你不需要僅限于此。它將能夠回答任何問題。
隨著時間的推移,當我們從 Llama3 模型進化到 Llama4 及其后續(xù)版本時,它會感覺不再像是一個聊天機器人,你給它一個提示,它就會回應(yīng),然后你再給它一個提示,它再回應(yīng)。而是你給它一個意圖。它實際上可以在多個時間框架內(nèi)工作。,它會預(yù)先承認你給了它一個意圖。我的意思是,有些事情,會啟動計算任務(wù),這些任務(wù)可能需要幾周或幾個月才能完成。然后回來告訴你發(fā)生了什么事情,這將會非常強大。
Jensen Huang
今天的 AI ,正如你所知,是有些單調(diào)的。你說點什么,它就回你點什么。但顯然,當我們考慮一個任務(wù)或問題時,我們會思考多個選項,或者也許我們會提出一個決策樹,并沿著這個決策樹走,模擬在我們心中,每個決策可能產(chǎn)生的不同結(jié)果。所以,我們在做計劃。將來, AI 也會這么做。當你談到你的創(chuàng)造者 AI 愿景時,我感到非常興奮,這是一個非常棒的想法。告訴大家關(guān)于創(chuàng)造者 AI 和 AI Studio 的情況吧。
Mark Zuckerberg
其實,這正是我們所談?wù)摰模裉煳覀儗⑵渫瞥龅酶鼜V泛。我們的愿景是,我不認為只會有一個 AI 模型。這是行業(yè)中一些其他公司在做的事情,他們在構(gòu)建一個中央 Agent 。我們會有一個可以使用的 Meta AI 助手,但我們的愿景是我們希望賦能所有使用我們產(chǎn)品的人,讓他們?yōu)樽约簞?chuàng)建 Agent 。
這就是平臺上許多的創(chuàng)造者或數(shù)以百萬計的小企業(yè)。我們最終希望能夠快速整合你們的所有內(nèi)容,并快速創(chuàng)建一個商業(yè) Agent ,可以與客戶互動,進行銷售和客戶支持。我們現(xiàn)在剛剛開始推出的是我們稱之為 AI Studio 的東西。它基本上是一套工具,最終將使每個創(chuàng)造者能夠建立一個自己的 AI 版本,作為他們社區(qū)可以互動的 Agent 或助手。
這里有一個基本問題,那就是時間不夠用。如果你是一個創(chuàng)造者,你想更多地與社區(qū)互動,但時間有限。同樣地,你的社區(qū)也希望與你互動,但時間有限。所以,下一步就是讓人們能夠創(chuàng)建這些人工制品。它是一個 Agent ,你將它訓(xùn)練成代表你,以你希望的方式表現(xiàn)。這是一種非常創(chuàng)造性的工作,幾乎像是一件藝術(shù)品或內(nèi)容,你在發(fā)布出去。
當然,很明顯它不是在與創(chuàng)造者本人互動,但這將是另一種有趣的方式,就像創(chuàng)造者在這些社交系統(tǒng)上發(fā)布內(nèi)容一樣,能夠有 Agent 做同樣的事情。同樣地,將會有一種情況,人們基本上為各種不同的用途創(chuàng)建自己的 Agent 。有些是定制的實用程序,他們想要完成的任務(wù),他們想要微調(diào)和訓(xùn)練 Agent 。有些是娛樂,某些人創(chuàng)造的東西只是搞笑和不同方式的搞怪,或帶有一種有趣的態(tài)度,這些可能我們不會在 Meta AI 作為助手中構(gòu)建進去,但人們對此非常感興趣,想要與之互動。
然后,一個有趣的用例是人們使用這些 Agent 進行支持。這讓我有點驚訝的是, Meta AI 的一個主要用例是人們基本上用它來模擬社交場景,不論是專業(yè)場景,例如“我想向經(jīng)理詢問如何獲得晉升或加薪?”或者是和朋友的爭執(zhí),或者是和女朋友的困難情況,模擬這種對話,看看對話會如何進行,并獲得反饋。
很多人不想與同一種 Agent 互動,不論是 Meta AI 還是 ChatGPT 或其他人使用的東西。他們想要創(chuàng)建自己的東西。這就是 AI Studio 的大致方向。但這都是我們更大愿景的一部分,我們認為不應(yīng)該只有一個大 AI 讓人們互動。我們認為如果有各種不同的東西,世界會更好、更有趣。
前 a16z 合伙人:ChatGPT 從科研到 1 億用戶可能是陷阱,硅谷的集體押注需要傳統(tǒng)市場邁過 PMF。
Jensen Huang
你可以變得非常酷。如果你是一位藝術(shù)家并且有自己的風格,你可以把你的風格、你所有的作品,微調(diào)一個模型。
Mark Zuckerberg
然后這就變成了一個可以進行提示的 AI 模型。
Jensen Huang
你可以讓我創(chuàng)作一些符合我藝術(shù)風格的東西。你甚至可以給我一幅畫作為靈感,我可以為你生成一些東西。你來找我的 AI 做這些。將來每個餐廳、每個網(wǎng)站可能都會有這些 AI 。
Mark Zuckerberg
我覺得將來每個企業(yè)都會像有電子郵件地址、網(wǎng)站和社交媒體賬號一樣,擁有一個 AI Agent 來與客戶互動。歷史上這些事情一直很難做到。如果你考慮任何公司,可能會有客戶支持部門,這和銷售部門是分開的,而作為 CEO 你不希望這種情況,因為這是不同的技能。
Jensen Huang
我是你的客戶支持,就為了工作。顯然我是。每次馬克需要什么東西,我不知道是聊天機器人還是藝術(shù),但他只是我的聊天機器人。
Mark Zuckerberg
我想這就是,當你是 CEO 時,你必須做所有的事情。但當你在組織中構(gòu)建抽象層時,很多時候這些組織是分開的,因為它們?yōu)榱瞬煌哪繕硕鴥?yōu)化。理想的情況是它們是一個整體。作為客戶,你不在乎在買東西時和遇到問題時會走不同的路徑。你只希望有一個地方可以解答你的問題并與企業(yè)互動。這對創(chuàng)作者也適用。對消費者而言,這些與客戶的互動,
Jensen Huang
特別是投訴,會讓你的公司變得更好。完全同意。所有與 AI 的互動會捕捉到機構(gòu)知識,這些都可以進入分析,進一步改進 AI ,如此循環(huán)往復(fù)。
Mark Zuckerberg
商業(yè)版本可能會更多整合,但我們還處于早期階段。通過 AI Studio ,人們可以創(chuàng)建他們的 UGC Agent 和不同的東西,并在這個飛輪上起步。我對此非常興奮。
Jensen Huang
所以我可以用 AI Studio 來微調(diào)我的圖像,我的圖像收藏嗎?
Mark Zuckerberg
我們會做到的。
Jensen Huang
那么我可以給它我寫的所有東西,用它作為我的 RAG 嗎?基本上是這樣。好的。然后每次我回到它那里,它會加載上次的記憶,我們可以繼續(xù)我們的對話,就像什么都沒發(fā)生一樣。
Mark Zuckerberg
就像任何產(chǎn)品一樣,隨著時間的推移會變得更好,訓(xùn)練工具也會變得更好。不僅僅是你想說什么,通常創(chuàng)作者和企業(yè)也有他們想避開的主題。他們在這方面越來越擅長。理想情況是,不只是文字,你幾乎希望能夠進行視頻聊天,這與我們正在做的一些編解碼器頭像工作有交集。我們會實現(xiàn)這一點。這些東西離我們并不遠,飛輪轉(zhuǎn)得很快。這很令人興奮。有很多新東西要做。
即使基礎(chǔ)模型的進展現(xiàn)在停止了,我們有五年的產(chǎn)品創(chuàng)新期來弄清楚如何最有效地使用已有的東西。但實際上基礎(chǔ)模型和基礎(chǔ)研究的進展在加速。這是一個相當瘋狂的時代。
Jensen Huang
你的愿景是每個人都可以有一個 AI ,每個企業(yè)都可以有一個 AI 。在我們的公司,我希望每個工程師和每個軟件開發(fā)者都有一個 AI ,甚至多個 AI 。你對每個人和每個公司都能制作自己的 AI 的愿景讓我很喜歡,你開源了 Llama2.1,順便說一下,Llama2 是去年 AI 領(lǐng)域最大的事件。
Mark Zuckerberg
還有 H100,但這是雞和蛋的問題。
Jensen Huang
這是雞和蛋的問題。哪個先來?H100。Llama2 實際上不是 H100,而是 A100。所以,這是最大的事件,因為當它出來時,它激活了每個公司、每個企業(yè)和每個行業(yè)。
突然間,每個醫(yī)療保健公司都在構(gòu)建 AI ,每個公司都在構(gòu)建 AI ,每個大公司、小公司,初創(chuàng)公司都在構(gòu)建 AI 。它使每個研究人員都能重新參與 AI ,因為他們有了一個起點。
現(xiàn)在 Llama3.1 出來了,興奮程度非常高。我們與合作伙伴一起部署 Llama3.1,將其帶到全球的企業(yè)。興奮程度超乎想象。它將啟用各種應(yīng)用程序。
但告訴我你的開源哲學(xué)。它從哪里來的?你開源了 PyTorch?,F(xiàn)在這是進行 AI 的框架。你又開源了 Llama3.1 或 Llama,圍繞它構(gòu)建了整個生態(tài)系統(tǒng),但這一切是從哪里來的?
Mark Zuckerberg
這有很多歷史。我們做了很多開源工作。部分原因是坦率地說,我們在一些其他科技公司之后才開始構(gòu)建分布式計算基礎(chǔ)設(shè)施和數(shù)據(jù)中心。因此,當我們構(gòu)建這些東西時,它們不再是競爭優(yōu)勢。我們想,既然如此,不如開源,這樣我們就能從生態(tài)系統(tǒng)中受益。因此我們有很多這樣的項目。
最大的項目可能是開放計算,我們公布了服務(wù)器設(shè)計、網(wǎng)絡(luò)設(shè)計,最終是數(shù)據(jù)中心設(shè)計。通過讓它成為行業(yè)標準,供應(yīng)鏈也圍繞它組織起來,這樣可以為每個人節(jié)省成本。通過公開這些設(shè)計,我們基本上節(jié)省了數(shù)十億美元。
Jensen Huang
開放計算讓我們能夠設(shè)計 Nvidia HGX,使其在某個數(shù)據(jù)中心內(nèi)突然變得可能。
Mark Zuckerberg
它在每個數(shù)據(jù)中心都能工作。在每個數(shù)據(jù)中心都能工作,太棒了。所以我們有一個很棒的體驗。然后我們也用了一些基礎(chǔ)設(shè)施工具,比如 React、PyTorch。我想說在 Llama 出現(xiàn)之前,我們已經(jīng)對這種事情持積極態(tài)度。
對于 AI 模型來說,我有一些看法。首先,在過去20年里,構(gòu)建東西非常有趣。最困難的事情之一是我們不得不通過競爭對手的移動平臺來發(fā)布我們的應(yīng)用程序。一方面,移動平臺對行業(yè)來說是一個巨大的推動力。
另一方面,通過競爭對手的平臺發(fā)布產(chǎn)品是很有挑戰(zhàn)性的。我成長的時代,第一版 Facebook 是在網(wǎng)絡(luò)上的,那是開放的。然后隨著向移動端的轉(zhuǎn)變,好處是每個人現(xiàn)在都有口袋電腦。
不好的地方是,我們能做的事情變得更加受限了。當你看這些計算機代際變化時,有一種偏見,大家只看移動設(shè)備,認為這是封閉的生態(tài)系統(tǒng),因為蘋果基本上贏得了市場并設(shè)定了標準。我知道技術(shù)上有更多的安卓手機,但蘋果基本上占據(jù)了整個市場,并且所有的利潤,安卓在開發(fā)方面基本上是跟隨蘋果的,蘋果顯然贏得了這一代。
即使你回顧上一代,蘋果做的是封閉的事情,但微軟相對來說是更開放的, Windows 運行在不同的 OEM 和硬件上,是一個更開放的生態(tài)系統(tǒng), Windows 是領(lǐng)先的生態(tài)系統(tǒng)。在PC時代,開放的生態(tài)系統(tǒng)獲勝了。我希望在下一代計算中,開放的生態(tài)系統(tǒng)再次成為領(lǐng)先者。始終會有封閉和開放的兩個系統(tǒng),兩者都有理由存在,各有優(yōu)勢。我不是一個狂熱者,我們也做封閉源代碼的東西,但并不是所有發(fā)布的東西都是開放的。
但總的來說,對整個行業(yè)來說,如果軟件特別是開放的,那是有很大價值的。這真的塑造了我的哲學(xué)。對于 Llama AI 和我們在 AR 和 VR 中所做的工作,我們基本上在構(gòu)建一個開放操作系統(tǒng),就像 Android 或 Windows 一樣,基本上使我們能夠與許多不同的硬件公司合作,制造各種各樣的設(shè)備。
我們基本上只是希望將生態(tài)系統(tǒng)恢復(fù)到那個水平,我對下一代的開放系統(tǒng)將獲勝持樂觀態(tài)度。對我們來說,我只是想確保我們能夠構(gòu)建我們將在其上構(gòu)建社交體驗的基本技術(shù),因為有太多事情我試圖構(gòu)建,但被平臺提供商拒絕了,所以我對下一個世代的目標是從頭構(gòu)建所有東西。
Jensen Huang
這是一個很棒的世界,人們致力于構(gòu)建盡可能最好的 AI ,并將其作為服務(wù)提供給世界。但是,如果你想構(gòu)建自己的 AI ,你仍然可以構(gòu)建自己的 AI 。因此,使用 AI 的能力,有很多東西我不想自己制作這件夾克,我更喜歡有人為我制作這件夾克。
你明白我的意思嗎?所以皮革是開源的對我來說沒有什么意義。但擁有出色服務(wù)、令人難以置信的服務(wù)以及開放服務(wù)、開放可用性是很好的概念。
你們做的 3.1 真的很棒,有 4.5 B,有 70 B的 API,可以用于生成合成數(shù)據(jù),使用較大的模型來教小模型。
盡管較大的模型更通用,但它不那么脆弱。你仍然可以構(gòu)建適合任何操作領(lǐng)域或操作成本的小模型。因此,現(xiàn)在你們構(gòu)建模型的方式是透明的,你們有世界級的安全團隊、世界級的倫理團隊,可以以所有人都知道的方式正確構(gòu)建它,我真的很喜歡這一點。
Mark Zuckerberg
我之前岔開話題了,但我要補充一點。我們這樣做是因為我們希望這種東西存在,并且我們不希望被某個封閉的模型排除在外。但這不僅僅是一塊可以構(gòu)建的軟件,你需要一個生態(tài)系統(tǒng)。
如果我們不開放源代碼,它幾乎不會運作得很好。我們這樣做不是因為我們是利他主義者,盡管這對生態(tài)系統(tǒng)有幫助,但我們這樣做是因為我們認為這會使我們構(gòu)建的東西最好,因為有一個強大的生態(tài)系統(tǒng)。
Jensen Huang
看看有多少人為 PyTorch 生態(tài)系統(tǒng)做出了貢獻?數(shù)以百計的工程師。Nvidia 公司單獨就有幾百名工程師專注于讓 PyTorch 更好、更可擴展、更高效等等。
Mark Zuckerberg
而且當某些東西成為行業(yè)標準時,其他人會圍繞它做工作。所以所有的硅和系統(tǒng)最終會優(yōu)化以很好地運行這東西,這將有利于所有人,但也會與我們構(gòu)建的系統(tǒng)配合得很好。這只是如何變得非常有效的一個例子。所以,開源策略將是一個很好的商業(yè)策略。人們還沒有完全理解。
Jensen Huang
我認識到重要的事情,Llama 確實很重要。我們圍繞它構(gòu)建了一個叫做 ?AI Factory、 ?AI Foundry 的概念,以便我們可以幫助每個人構(gòu)建。很多人有構(gòu)建 AI 的愿望,對他們來說擁有 AI 很重要,因為一旦他們將其納入他們的數(shù)據(jù)飛輪,他們公司的知識就會被編碼并嵌入到 AI 中。所以他們不能讓 AI 飛輪、數(shù)據(jù)飛輪、經(jīng)驗飛輪在別處。開源讓他們能做到這一點。但他們不知道如何將整個事情變成 AI 。
所以我們創(chuàng)建了這個叫 ?AI Foundry 的東西,我們提供工具、提供專長、Llama 技術(shù),我們有能力幫助他們將整個事情轉(zhuǎn)變成 AI 服務(wù)。當我們完成后,他們擁有它。輸出是我們稱之為 NIM 的東西,它神經(jīng)微服務(wù)??梢韵螺d它,拿去運行在任何他們喜歡的地方,包括在本地。
我們有一整套合作伙伴生態(tài)系統(tǒng),從可以運行 NIM OEM 到我們訓(xùn)練并與之合作創(chuàng)建基于 Llama NIM 和流水線的 GSI?,F(xiàn)在我們正在全球各地幫助企業(yè)這樣做。這真的很令人興奮,都是 Llama 開源引發(fā)的。
Mark Zuckerberg
特別是幫助人們從大模型中訓(xùn)練出自己的模型,這將是一個非常有價值的新事物。正如我們在產(chǎn)品方面談到的,我不認為將會有一個主要的 AI Agent ,所有人都會與之對話。我也不認為將會有一個所有人都使用的模型。
Jensen Huang
我們有芯片設(shè)計 AI ,我們有軟件編碼 AI 。我們的軟件編碼 AI 理解USD,因為我們?yōu)?Omniverse 編寫USD。我們有軟件 AI 理解 Verilog,我們的Verilog。我們有軟件 AI 理解我們的 bug 數(shù)據(jù)庫,知道如何幫助我們分類 bug,并發(fā)送給合適的工程師。
每個 AI 都是基于 Llama 進行微調(diào)的。我們微調(diào)它們,為它們設(shè)置防護。如果我們有一個用于芯片設(shè)計的 AI ,我們不希望它回答政治和宗教問題。所以我們?yōu)樗鼈冊O(shè)置防護。每家公司基本上會有適用于每個功能的 AI 。他們需要幫助才能做到這一點。
Mark Zuckerberg
未來的一個大問題是,人們在多大程度上會使用更大、更復(fù)雜的模型,而不是為他們的特定用途訓(xùn)練自己的模型。至少將會有各種不同模型的廣泛普及。
Jensen Huang
我們使用最大的模型。原因是我們的工程師時間非常寶貴。我們現(xiàn)在正在優(yōu)化 405B 模型的性能。405B 模型不適合任何 GPU ,無論多大。所以MV Link 性能非常重要。每一個 GPU 都通過這個非阻塞交換機連接。在 HGX 中,例如,有兩個這樣的交換機。我們使所有這些 GPU 能夠高效運行 405B 模型。我們這樣做是因為工程師時間對我們來說非常寶貴,我們希望使用盡可能好的模型。事實上,這種成本效益并不重要。所以我們只是想確保為他們提供最佳質(zhì)量的結(jié)果。
Mark Zuckerberg
405B 的推理成本大約是 GPT-4o 模型的一半。所以我要補充這一點。這已經(jīng)很不錯了。人們在設(shè)備上做一些事情或希望使用更小的模型時,他們會將其簡化。所以那是完全不同的一組服務(wù)。
Jensen Huang
AI 在運行。假設(shè)我們雇傭 AI 來設(shè)計芯片,每小時可能花費 10 美元。如果你不斷使用它,并且將它與許多工程師共享,那么每個工程師可能都有一個 AI 在他們旁邊。這并不昂貴。我們支付工程師很多錢。所以對我們來說,每小時幾美元就能增強某個非常有價值的人的能力。
如果你還沒有雇傭 AI ,馬上去做。這就是我們要說的。讓我們談?wù)勏乱徊ɡ顺薄N曳浅O矚g你們所做的工作,計算機視覺。我們內(nèi)部經(jīng)常使用的一個模型是“分割一切”。我們現(xiàn)在在訓(xùn)練 AI 模型理解視頻,以便我們能夠更好地建?,F(xiàn)實世界。
在我們的用例中,主要用于機器人技術(shù)和工業(yè)數(shù)字化,并將這些 AI 模型連接到 Omniverse ,以便更好地建模和表示物理世界。我有一些在這些 Omniverse 世界中運行得更好的機器人。你的Rayband Meta glass應(yīng)用,將 AI 引入虛擬世界的愿景真的很有趣。告訴我們有關(guān)它的情況。
Mark Zuckerberg
好吧,我們其實正在這里展示該模型的下一版本 SIGRAF Segment Anything 2。它現(xiàn)在更快了。它在視頻中也能工作。因為它是開放的,很多更嚴肅的應(yīng)用也能在各行各業(yè)中使用??茖W(xué)家用這個研究珊瑚礁和自然棲息地的演變。但能夠在視頻中做到這一點,并且能夠零樣本并與之交互,告訴它你想跟蹤什么,是非??岬难芯?。
Jensen Huang
例如,為什么我們使用它呢?例如,你有一個倉庫,里面有很多攝像頭,倉庫的 AI 監(jiān)控所有事情,假設(shè)有一堆箱子倒了或有人把水灑在地上,或任何事故即將發(fā)生。AI 識別它,生成文本,發(fā)送給某人,并幫助解決問題。這是使用它的一種方式。與其錄制一切,如果發(fā)生事故,開始記錄每一納秒的視頻并回放那個時刻,它只記錄重要的部分,因為它知道在看什么。所以有一個視頻理解模型,一個視頻語言模型,對所有這些有趣的應(yīng)用非常有用?,F(xiàn)在你們還在研究什么?
Mark Zuckerberg
有所有的智能眼鏡。我們將下一個計算平臺分為混合現(xiàn)實頭戴設(shè)備和智能眼鏡。智能眼鏡更容易被人理解,因為幾乎每個人都在戴眼鏡,最終都會升級到智能眼鏡,而世界上有超過十億人戴眼鏡。所以這將是一個非常大的市場。VR MR頭戴設(shè)備,有些人覺得它適合游戲或其他用途,有些人還不感興趣。我的觀點是,兩者都會存在于世界上。智能眼鏡會成為下一代計算平臺的移動版,混合現(xiàn)實頭戴設(shè)備則更像是你的工作站或游戲主機,當你想進行更沉浸式的會話時,你會坐下來使用更多計算能力。眼鏡體積很小,有很多限制,就像你不能在手機上做同樣水平的計算。
Jensen Huang
它正好趕上了生成式 AI 的所有突破。
Mark Zuckerberg
對于智能眼鏡,我們從兩個不同的方向來解決問題。一方面,我們在構(gòu)建理想的全息 AR 眼鏡的所需技術(shù)。我們正在進行所有定制的硅工作、定制的顯示堆棧工作,所有使其工作的技術(shù)。而且它是眼鏡,不是頭戴設(shè)備,不像 VR MR頭戴設(shè)備。它們看起來像眼鏡。但與現(xiàn)在你戴的眼鏡仍有很大差距。
Ray-Bans雖然很好,但還不能完全容納所有需要的技術(shù)以實現(xiàn)全息 AR 。我們正在接近,未來幾年會更接近。價格還會很高,但這將開始成為產(chǎn)品。另一個角度是從外觀好看的眼鏡開始。與世界上最好的眼鏡制造商合作,如 EssilorLuxottica,他們制造所有的大品牌,如 Ray-Ban、Oakley、Oliver Peoples 等,這基本上是EssilorLuxottica的天下。
所以我們與他們合作,Ray-Ban 眼鏡已進入第二代。目標是限制在一個看起來很好的眼鏡內(nèi),盡可能多地放入技術(shù)。理解我們不可能完全實現(xiàn)我們的理想。但它最終會是看起來很好的眼鏡。現(xiàn)在它有攝像頭可以拍照和錄像,可以直播到 Instagram ,可以進行 WhatsApp 視頻通話,并向?qū)Ψ秸故灸闼吹降?。它有麥克風和揚聲器,開放式耳機,許多人覺得比耳塞更舒適。
可以聽音樂,像私人體驗??梢越与娫?。但傳感器包恰好可以與 AI 對話。這是一個意外。如果你五年前問我,我們會先得到全息 AR 還是 AI ,我會說是全息 AR 。因為顯示技術(shù)和虛擬現(xiàn)實和混合現(xiàn)實技術(shù)在不斷進步。
但 LLM 的突破改變了這一點。我們有了高質(zhì)量的 AI ,并且以很快的速度變得更好,這比全息 AR 早。我們運氣好,因為我們在研發(fā)這些產(chǎn)品。最終會有一系列不同的眼鏡產(chǎn)品,不同價格和技術(shù)水平。我猜沒有顯示屏的 AI 眼鏡,大約 300 美元,會是一個很大的產(chǎn)品,成千上萬甚至數(shù)百萬人會擁有。所以你會有超級互動的 AI 與你對話。
Jensen Huang
你展示了視覺語言理解。你有實時翻譯。你可以用一種語言對我說話,我會用另一種語言聽到。
Mark Zuckerberg
顯示器顯然也會很棒,但這會給眼鏡增加一點重量,也會讓它們更貴。所以會有很多人想要那種全息顯示,但也會有很多人希望最終能有真的很薄的眼鏡。
Jensen Huang
在工業(yè)應(yīng)用和一些工作應(yīng)用中,我們需要那種全息顯示。
Mark Zuckerberg
在消費品中也是如此。
Jensen Huang
你這么認為嗎?
Mark Zuckerberg
我在疫情期間想了很多,當時大家都遠程辦公。這很好,很棒我們有這個,但未來,我們距離能夠進行虛擬會議的時代不遠了,就像我沒有真的在這里,而是我的全息影像。這種感覺就像我們在那里一樣,物理上在場。我們可以一起工作和合作。這對于 AI 來說尤其重要。
Jensen Huang
我可以接受一種不需要一直佩戴的設(shè)備。
Mark Zuckerberg
但我們會達到這個點。在眼鏡中,有薄框和厚框,有各種風格。所以我不認為我們離擁有全息眼鏡的形式還很遠。但在一副時尚的稍厚框的眼鏡中實現(xiàn)這個目標并不遙遠。
我試圖成為一種風格的領(lǐng)導(dǎo)者,以便在眼鏡上市之前能影響它。但我看到很多,現(xiàn)在還早。我覺得如果未來業(yè)務(wù)的一個重要部分是打造人們愿意佩戴的時尚眼鏡,那么我應(yīng)該開始更多地關(guān)注這一點。
所以我們可能需要告別我每天穿同樣?xùn)|西的版本。眼鏡也是一樣的。與手表或手機不同,人們真的不希望看起來都一樣。所以這會是一個開放生態(tài)系統(tǒng),因為人們會對款式和風格有巨大的需求。不像每個人都想戴同一副眼鏡,那樣行不通。
Jensen Huang
你是對的,Mark,這真是不可思議的時代,整個計算堆棧正在被重新定義。我們?nèi)绾慰创浖?,?軟件一代到軟件二代,現(xiàn)在我們基本上進入了軟件三代。從通用計算到生成性神經(jīng)網(wǎng)絡(luò)處理的計算方式,能力和應(yīng)用程序現(xiàn)在是過去難以想象的。
這項技術(shù),無論是通用的還是 VI(視覺智能),我不記得有哪項技術(shù)以如此快的速度影響消費者、企業(yè)和科學(xué)領(lǐng)域。能夠跨越氣候技術(shù)、生物技術(shù)、物理科學(xué)等各個科學(xué)領(lǐng)域。生成式 AI ?正在每個我們遇到的領(lǐng)域中進行根本性轉(zhuǎn)變。此外,生成式 AI ?將對社會產(chǎn)生深遠影響,影響我們制造的產(chǎn)品。
有人問我,是否會有一個 Jensen AI ?這正是你所說的創(chuàng)意 AI ,我們可以自己構(gòu)建 AI ,并加載我寫過的所有內(nèi)容。然后用我回答問題的方式進行微調(diào)。希望隨著時間的推移,通過使用的積累,它會成為一個真正優(yōu)秀的助手和伴侶。它不會帶有評判性,所以你可以隨時與之互動。這些真的是令人難以置信的事情。我們一直在寫很多東西。
想象一下,只需提供三四個主題,它就能以我的語氣寫作并作為起點。所以我們現(xiàn)在可以做的事情真的太多了。與你合作真的很棒。我知道建立一家公司并不容易,你從桌面到移動設(shè)備,再到 VR ,再到 AI 所有這些設(shè)備的轉(zhuǎn)變。視頻領(lǐng)域也多次發(fā)生轉(zhuǎn)變,我深知這有多難。我們多年來都遭受了很多挫折,但這正是成為先鋒和創(chuàng)新者所需要的。所以,看著你真的很棒。
Mark Zuckerberg
如果你繼續(xù)做之前做的事情,也不確定是否是轉(zhuǎn)型。但這很不錯。但這是一點增加。這一切還有更多的章節(jié)。而且我覺得,對于你們來說也是一樣的——看你們走過的這段旅程真是有趣。我們經(jīng)歷了一個階段,每個人都覺得,所有事情都要轉(zhuǎn)向這些設(shè)備。這只是要變得超級便宜的計算能力。而你們只是繼續(xù)堅持下去。實際上,你們會需要這些能夠并行處理的大型系統(tǒng)。
Jensen Huang
我們走了另一條路,而不是制造越來越小的設(shè)備,我們做了一臺計算機。我們開始制造圖形芯片, GPU ?,F(xiàn)在,當你部署一個 GPU 時,你仍然稱它為 Hopper H100。所以你們知道,當 Mark 稱它為 H100 時,他的數(shù)據(jù)中心有 H100,你們即將達到 60 萬,我們是很好的客戶。
Mark Zuckerberg
有一天,你說,幾周后,我們在 SIGGRAPH 做這件事。我說,我那天沒有什么安排,聽起來很有趣。
Jensen Huang
完全正確。我那天下午沒事。你就出現(xiàn)了。事情就是如此不可思議,這些系統(tǒng)你們建造的,這些巨大的系統(tǒng),難以協(xié)調(diào),難以運行。你說你們比大多數(shù)人晚進入 GPU 領(lǐng)域。但你們操作的規(guī)模比幾乎任何人都大。這真是不可思議。祝賀你們所做的一切。
本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】,微信公眾號:【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自SIGGRAPH 2024大會現(xiàn)場截圖
- 目前還沒評論,等你發(fā)揮!