紅杉美國(guó)對(duì)話(huà)英偉達(dá)科學(xué)家 Jim Fan:十年內(nèi)人形機(jī)器人將超越人類(lèi)的敏捷性和可靠性,所有可移動(dòng)的東西終將實(shí)現(xiàn)自主化

0 評(píng)論 2649 瀏覽 5 收藏 50 分鐘

在人工智能和機(jī)器人技術(shù)迅速發(fā)展的今天,英偉達(dá)的高級(jí)研究科學(xué)家Jim Fan分享了他對(duì)具身智能和人形機(jī)器人未來(lái)的深刻見(jiàn)解。

近日,英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 與紅杉美國(guó)投資人展開(kāi)了一場(chǎng)關(guān)于具身智能、機(jī)器人技術(shù)以及虛擬世界領(lǐng)域的前沿思考。

Jim Fan 展示了英偉達(dá)在構(gòu)建智能機(jī)器人方面的長(zhǎng)期愿景,并討論了推動(dòng)這項(xiàng)技術(shù)的核心挑戰(zhàn)和突破機(jī)會(huì)。

Jim 指出,英偉達(dá)正在押注具身智能和人形機(jī)器人技術(shù)的發(fā)展。他認(rèn)為,未來(lái)十年內(nèi),人形機(jī)器人將達(dá)到甚至超越人類(lèi)的敏捷性和可靠性。他們的目標(biāo)是為日常生活開(kāi)發(fā)可以承擔(dān)家庭瑣事(如洗衣)的機(jī)器人,從而極大地提升生活質(zhì)量和經(jīng)濟(jì)價(jià)值。

他特別強(qiáng)調(diào)了虛擬世界與物理世界的交叉影響。虛擬世界提供了一個(gè)強(qiáng)大的“世界模擬器”,讓研究者能夠通過(guò)模擬數(shù)據(jù)和領(lǐng)域隨機(jī)化技術(shù)加速機(jī)器人在現(xiàn)實(shí)中的應(yīng)用。

他提出,通過(guò)在虛擬環(huán)境中訓(xùn)練,智能體可以無(wú)縫泛化到物理世界,達(dá)到“零次微調(diào)”的轉(zhuǎn)移效果。

Jim 認(rèn)為,視頻生成是未來(lái) AI 的重要方向,因?yàn)樗軌蛞詳?shù)據(jù)驅(qū)動(dòng)的方式模擬世界,為 AI 模型提供真實(shí)的物理和渲染數(shù)據(jù)。他同時(shí)對(duì) AI 模型的推理能力(特別是編程能力)充滿(mǎn)期待,認(rèn)為在未來(lái)十年內(nèi),AI 智能體將在自動(dòng)編程和加速軟件開(kāi)發(fā)方面取得重大進(jìn)展。

此外,Jim 還特別提到研究中的“品味”,即確定值得解決的問(wèn)題比尋找解決方案更難且更重要。

他提到了自己在李飛飛等導(dǎo)師的指導(dǎo)下,培養(yǎng)了識(shí)別哪些問(wèn)題能夠產(chǎn)生最大影響的能力,并認(rèn)為具身智能是未來(lái) AI 智能體的重要方向。他也建議 AI 創(chuàng)業(yè)者保持對(duì)最新文獻(xiàn)和工具的敏銳洞察,尋找能夠長(zhǎng)遠(yuǎn)發(fā)展的領(lǐng)域。

Jim 引用了英偉達(dá) CEO 黃仁勛的話(huà) —— 所有能夠移動(dòng)的東西最終都會(huì)實(shí)現(xiàn)自主化。

他認(rèn)為,隨著硬件技術(shù)和制造成本的下降,未來(lái)機(jī)器人將像 iPhone 一樣普及。英偉達(dá)正著手構(gòu)建一個(gè)從硬件到軟件的完整技術(shù)棧,以支持智能機(jī)器人的發(fā)展。

以下為這次對(duì)談的全部?jī)?nèi)容,enjoy~

Sonya Huang

今天我們邀請(qǐng)到了 Nvidia 的高級(jí)研究科學(xué)家Jim Fan。Jim領(lǐng)導(dǎo) Nvidia 的具身智能(Embodied AI )智能體研究工作,涉及物理世界中的機(jī)器人技術(shù)和虛擬世界中的游戲智能體。

Jim 的團(tuán)隊(duì)負(fù)責(zé)了Project Groot項(xiàng)目,你可能在今年的 GTC 大會(huì)上看到過(guò)和Jensen同臺(tái)展示的視頻中出現(xiàn)的人形機(jī)器人。

今天我們很高興能和Jim討論關(guān)于機(jī)器人技術(shù)的一切問(wèn)題。為什么選擇現(xiàn)在?為什么是人形機(jī)器人?以及如何實(shí)現(xiàn)機(jī)器人領(lǐng)域的 GPT-3 時(shí)刻?

非常激動(dòng)能夠和大家分享關(guān)于機(jī)器人技術(shù)和具身智能的各種內(nèi)容。在我們深入討論之前,您的個(gè)人故事非常有趣。

你是 OpenAI 的第一位實(shí)習(xí)生,能不能給我們講一下你的個(gè)人經(jīng)歷,以及你是如何走到今天這一步的?

Jim Fan

當(dāng)然,我很愿意和大家分享這些故事。2016 年夏天,我的一些朋友告訴我,城里有一家新的初創(chuàng)公司讓我去看看。

我當(dāng)時(shí)心想:“嗯,我沒(méi)什么別的事情可做,因?yàn)槲乙呀?jīng)被錄取為博士生了?!?那個(gè)夏天我很空閑,所以我決定加入這家初創(chuàng)公司,而那家公司就是 OpenAI 。

在我加入 OpenAI 的那段時(shí)間,我們已經(jīng)在討論 AGI 了,而我的實(shí)習(xí)導(dǎo)師是 Andrej Karpathy 和 Iliya Sotskever。

我們一起討論并展開(kāi)了一個(gè)項(xiàng)目,叫做“World of Bits”。這個(gè)項(xiàng)目的想法非常簡(jiǎn)單,我們希望建立一個(gè) AI 智能體,它能夠讀取電腦屏幕上的像素信息,然后控制鍵盤(pán)和鼠標(biāo)。如果你仔細(xì)想想,這種界面是最通用的。

我們?cè)陔娔X上做的所有事情,比如回復(fù)郵件、玩游戲或?yàn)g覽網(wǎng)頁(yè),都可以通過(guò)這個(gè)界面完成,將屏幕像素映射到鍵盤(pán)和鼠標(biāo)的控制。

這其實(shí)是我在 OpenAI 的第一次 AGI 嘗試,也是我 AI 智能體旅程的第一個(gè)篇章。

Stephanie Zhan

我記得“World of Bits”這個(gè)項(xiàng)目,我不知道你也參與其中,真是太有趣了。

Jim Fan

是的,那是一個(gè)非常有趣的項(xiàng)目,它也是 OpenAI Universe 平臺(tái)的一部分,這是一個(gè)將所有應(yīng)用程序和游戲整合到這個(gè)框架中的更大計(jì)劃。

Stephanie Zhan

你覺(jué)得當(dāng)時(shí)有哪些突破?另外,你認(rèn)為當(dāng)時(shí)在智能體領(lǐng)域面臨的主要挑戰(zhàn)是什么?

Jim Fan

是的,當(dāng)時(shí)我們主要使用的方法是強(qiáng)化學(xué)習(xí)。在 2016 年,還沒(méi)有 LLM 或 Transformer 模型。

強(qiáng)化學(xué)習(xí)在特定任務(wù)上確實(shí)有效,但它不具備廣泛的泛化能力。比如我們無(wú)法給智能體任何一種指令,要求它完成各種通過(guò)鍵盤(pán)和鼠標(biāo)操作的任務(wù)。當(dāng)時(shí),它在我們?cè)O(shè)計(jì)的特定任務(wù)上有效,但沒(méi)有真正實(shí)現(xiàn)泛化。

這促使我進(jìn)入了下一個(gè)階段,我去了斯坦福大學(xué)。我開(kāi)始在斯坦福跟隨 Favilly 教授攻讀博士學(xué)位,主要研究計(jì)算機(jī)視覺(jué)和具身智能(Embodied AI )。

在 2016 年到 2021 年我在斯坦福期間,我見(jiàn)證了斯坦福視覺(jué)實(shí)驗(yàn)室的轉(zhuǎn)變,從 Favilly 教授帶領(lǐng)的靜態(tài)計(jì)算機(jī)視覺(jué),如識(shí)別圖像和視頻,轉(zhuǎn)變?yōu)榫呱碛?jì)算機(jī)視覺(jué),即智能體在交互環(huán)境中學(xué)習(xí)感知并采取行動(dòng)。

這個(gè)環(huán)境可以是虛擬的(在模擬中),也可以是物理世界中的。所以這是我的博士階段,主要是從靜態(tài)視覺(jué)過(guò)渡到具身智能的研究。

在我博士畢業(yè)后,我加入了 Nvidia ,并一直工作到現(xiàn)在。我將博士論文中的研究?jī)?nèi)容帶到了 Nvidia ,并繼續(xù)從事具身智能的研究工作,直到今天。

Sonya Huang

你目前負(fù)責(zé) Nvidia 的具身智能計(jì)劃,可以簡(jiǎn)單介紹一下這個(gè)項(xiàng)目的含義,以及你們希望實(shí)現(xiàn)的目標(biāo)嗎?

Jim Fan

當(dāng)然。目前我共同領(lǐng)導(dǎo)的團(tuán)隊(duì)叫做 GER,代表具身智能體研究(Generalist Embodied Agent Research)。簡(jiǎn)單來(lái)說(shuō),我們團(tuán)隊(duì)的工作可以總結(jié)為三個(gè)字:“生成行動(dòng)”。

因?yàn)槲覀儤?gòu)建具身智能智能體,而這些智能體會(huì)在不同的世界中采取行動(dòng)。如果這些行動(dòng)是在虛擬世界中進(jìn)行的,那就是游戲 AI 和模擬;如果是在物理世界中進(jìn)行的,那就是機(jī)器人技術(shù)。

事實(shí)上,今年 3 月的 GTC 大會(huì)上,Jensen 在他的主題演講中展示了一個(gè)叫做 Project Groot 的項(xiàng)目,這是 Nvidia 在構(gòu)建人形機(jī)器人基礎(chǔ)模型上的一項(xiàng)重要努力,而這正是 GER 團(tuán)隊(duì)目前的重點(diǎn)工作。我們希望為人形機(jī)器人乃至更廣泛的領(lǐng)域構(gòu)建 AI 大腦。

Stephanie Zhan

你認(rèn)為 Nvidia 在構(gòu)建這些技術(shù)上有什么競(jìng)爭(zhēng)優(yōu)勢(shì)?

Jim Fan

這是個(gè)很好的問(wèn)題。首先,毫無(wú)疑問(wèn)的是計(jì)算資源。所有這些基礎(chǔ)模型都需要大量的計(jì)算資源來(lái)擴(kuò)展。我們相信“Scaling Law”,類(lèi)似于 LLMScaling Law,但具身智能和機(jī)器人技術(shù)的 Scaling Law尚待研究,所以我們正在這方面做出努力。

Nvidia 的第二個(gè)優(yōu)勢(shì)是模擬技術(shù)。Nvidia 在成為一家 AI 公司之前,是一家圖形公司,所以我們?cè)跇?gòu)建模擬(如物理模擬、渲染)和GPU實(shí)時(shí)加速方面擁有多年的專(zhuān)業(yè)知識(shí)。因此,在構(gòu)建機(jī)器人技術(shù)時(shí),我們大量使用模擬技術(shù)。

Stephanie Zhan

模擬策略非常有趣。你認(rèn)為為什么大多數(shù)行業(yè)仍然非常專(zhuān)注于現(xiàn)實(shí)世界的數(shù)據(jù),而采用相反的策略呢?

Jim Fan

是的,我認(rèn)為我們需要各種數(shù)據(jù)。僅僅依靠模擬或現(xiàn)實(shí)世界的數(shù)據(jù)是不夠的。因此在GER(具身智能體研究團(tuán)隊(duì))中,我們將數(shù)據(jù)策略大致分為三個(gè)部分:

  • 第一是互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù),比如網(wǎng)上的標(biāo)簽和視頻。
  • 第二是模擬數(shù)據(jù),我們使用 Nvidia 的模擬工具生成大量的合成數(shù)據(jù)。
  • 第三是實(shí)際機(jī)器人數(shù)據(jù),我們通過(guò)在機(jī)器人平臺(tái)上操作機(jī)器人,收集并記錄這些數(shù)據(jù)。

我相信一個(gè)成功的機(jī)器人策略需要有效地利用這三種數(shù)據(jù),混合它們并提供統(tǒng)一的解決方案。

Sonya Huang

你剛才提到的數(shù)據(jù)是實(shí)現(xiàn)機(jī)器人基礎(chǔ)模型工作的關(guān)鍵瓶頸,你能不能多談?wù)勀銓?duì)這個(gè)觀(guān)點(diǎn)的信念,以及需要什么樣的優(yōu)秀數(shù)據(jù)來(lái)突破這個(gè)問(wèn)題?

Jim Fan

好的,我認(rèn)為我剛才提到的三種不同類(lèi)型的數(shù)據(jù)各有優(yōu)缺點(diǎn)。首先是互聯(lián)網(wǎng)數(shù)據(jù),它們是最具多樣性的,包含了大量的常識(shí)性先驗(yàn)知識(shí)。

比如大多數(shù)網(wǎng)上的視頻都是以人為中心的,因?yàn)槲覀兿矚g自拍,喜歡記錄彼此進(jìn)行各種活動(dòng),也有很多教學(xué)視頻。

我們可以利用這些數(shù)據(jù)來(lái)學(xué)習(xí)人類(lèi)如何與物體交互,以及物體在不同情況下的行為,這為機(jī)器人基礎(chǔ)模型提供了常識(shí)性先驗(yàn)知識(shí)。

但是,互聯(lián)網(wǎng)數(shù)據(jù)沒(méi)有行動(dòng)信號(hào),我們無(wú)法從互聯(lián)網(wǎng)上下載機(jī)器人的運(yùn)動(dòng)控制信號(hào)。

這就引出了第二種數(shù)據(jù)策略,即使用模擬。在模擬中,你可以擁有所有的動(dòng)作,并且可以觀(guān)察這些動(dòng)作在特定環(huán)境中的結(jié)果。

模擬的優(yōu)勢(shì)在于它基本上是無(wú)限的數(shù)據(jù),數(shù)據(jù)量隨計(jì)算資源的增加而擴(kuò)展。投入越多的GPU,產(chǎn)生的數(shù)據(jù)就越多,而且數(shù)據(jù)是實(shí)時(shí)的。如果僅在真實(shí)機(jī)器人上收集數(shù)據(jù),那么你會(huì)受到每天 24 小時(shí)的限制。

而通過(guò)GPU加速的模擬器,我們可以將實(shí)際時(shí)間加速到 1 萬(wàn)倍以上。在同樣的工作時(shí)間內(nèi),我們能夠以更高的速度收集數(shù)據(jù)。

但模擬的弱點(diǎn)是無(wú)論圖形管道多么好,模擬與現(xiàn)實(shí)總會(huì)有差距。物理規(guī)律和視覺(jué)效果都與現(xiàn)實(shí)世界有所不同,且內(nèi)容的多樣性不如我們?cè)诂F(xiàn)實(shí)世界中遇到的情景。

最后是實(shí)際機(jī)器人數(shù)據(jù),這些數(shù)據(jù)沒(méi)有模擬與現(xiàn)實(shí)的差距,因?yàn)樗鼈兪窃谡鎸?shí)機(jī)器人上收集的,但收集成本要高得多,因?yàn)樾枰腿瞬僮鳈C(jī)器人。

而且它們依然受限于現(xiàn)實(shí)世界的時(shí)間,每天只有 24 小時(shí),還需要人類(lèi)來(lái)收集這些數(shù)據(jù),成本非常高。

因此,我們認(rèn)為這三種類(lèi)型的數(shù)據(jù)各有優(yōu)勢(shì),成功的策略是結(jié)合它們的優(yōu)勢(shì),消除它們的劣勢(shì)。

Sonya Huang

那些在 Jensen 演講臺(tái)上的可愛(ài)機(jī)器人真是一個(gè)精彩的時(shí)刻。如果你有一個(gè)五年或十年的夢(mèng)想,你認(rèn)為你的團(tuán)隊(duì)會(huì)實(shí)現(xiàn)什么?

Jim Fan

這純粹是推測(cè),但我希望我們能在接下來(lái)的兩到三年內(nèi)看到機(jī)器人基礎(chǔ)模型的研究突破,這就是我們所謂的機(jī)器人領(lǐng)域的 GPT-3 時(shí)刻。

之后就不確定了,因?yàn)橐寵C(jī)器人進(jìn)入人們的日常生活,不僅僅是技術(shù)問(wèn)題。機(jī)器人需要價(jià)格合理,并且能夠量產(chǎn)。我們還需要確保硬件的安全性以及隱私和法規(guī)方面的考慮。

這些問(wèn)題可能需要更長(zhǎng)的時(shí)間才能使機(jī)器人進(jìn)入大眾市場(chǎng),所以這比較難以預(yù)測(cè)。但我希望研究突破能夠在未來(lái)兩三年內(nèi)到來(lái)。

Stephanie Zhan

你認(rèn)為 AI 機(jī)器人領(lǐng)域的 GPT-3 時(shí)刻會(huì)是什么樣子的?

Jim Fan

這是個(gè)好問(wèn)題。我喜歡將機(jī)器人技術(shù)分為兩個(gè)系統(tǒng):系統(tǒng)一和系統(tǒng)二,這個(gè)概念來(lái)自《思考,快與慢》這本書(shū)。

系統(tǒng)一是低級(jí)的運(yùn)動(dòng)控制,它是無(wú)意識(shí)且快速的。例如,當(dāng)我拿起這杯水時(shí),我不會(huì)真的思考每毫秒如何移動(dòng)手指。這就是系統(tǒng)一。

而系統(tǒng)二則是緩慢且深思熟慮的,它更像是推理和規(guī)劃,使用的是我們的有意識(shí)思維。我認(rèn)為 GPT-3 時(shí)刻將出現(xiàn)在系統(tǒng)一上。

我最喜歡的例子是“打開(kāi)”這個(gè)動(dòng)詞。想象一下“打開(kāi)”這個(gè)詞的復(fù)雜性。打開(kāi)門(mén)與打開(kāi)窗戶(hù)不同,打開(kāi)瓶子或手機(jī)的方式也不同。

但對(duì)人類(lèi)來(lái)說(shuō),理解“打開(kāi)”在與不同物體交互時(shí)意味著不同的動(dòng)作并沒(méi)有任何問(wèn)題。但

是到目前為止,我們還沒(méi)有看到一個(gè)機(jī)器人模型能夠在低級(jí)別運(yùn)動(dòng)控制上對(duì)這些動(dòng)詞進(jìn)行泛化。

我希望能看到一個(gè)模型能夠理解這些動(dòng)詞的抽象含義,并能夠在各種對(duì)人類(lèi)有意義的場(chǎng)景中進(jìn)行泛化。我們還沒(méi)有看到這種情況,但我對(duì)未來(lái)兩三年內(nèi)出現(xiàn)這個(gè)時(shí)刻持樂(lè)觀(guān)態(tài)度。

Sonya Huang

關(guān)于“系統(tǒng)二”思維呢?你認(rèn)為我們?nèi)绾尾拍軐?shí)現(xiàn)這個(gè)目標(biāo)?你認(rèn)為在 LLM 領(lǐng)域的推理工作也會(huì)與機(jī)器人領(lǐng)域相關(guān)嗎?

Jim Fan

是的,絕對(duì)相關(guān)。我認(rèn)為在“系統(tǒng)二”方面,我們已經(jīng)看到了一些非常強(qiáng)大的模型,它們可以進(jìn)行推理、規(guī)劃,甚至編程。

這些正是我們今天看到的 LLM 和前沿模型。但將“系統(tǒng)二”模型與“系統(tǒng)一”整合起來(lái),本身就是一個(gè)研究挑戰(zhàn)。

所以問(wèn)題是,針對(duì)機(jī)器人基礎(chǔ)模型,我們是否應(yīng)該有一個(gè)單一的大模型,還是采用某種級(jí)聯(lián)方法,保持“系統(tǒng)一”和“系統(tǒng)二”模型的獨(dú)立性,并讓它們通過(guò)某種方式進(jìn)行溝通?這仍然是一個(gè)懸而未決的問(wèn)題,它們各有優(yōu)缺點(diǎn)。

如果是第一個(gè)想法,模型會(huì)更簡(jiǎn)潔,只有一個(gè)模型,一個(gè) API 來(lái)維護(hù)。但這也更難控制,因?yàn)樗鼈兊目刂祁l率不同。

“系統(tǒng)二”模型的控制頻率較低,比如每秒一次決策(1Hz),而“系統(tǒng)一”則需要更高的控制頻率,比如每秒 1000 次決策(1000Hz),像我握住這杯水的微小運(yùn)動(dòng)就是每秒數(shù)千次的決策。這種不同頻率的控制難以通過(guò)單一模型實(shí)現(xiàn)。

所以,可能級(jí)聯(lián)的方法會(huì)更好。但問(wèn)題是,系統(tǒng)一和系統(tǒng)二之間如何溝通?它們通過(guò)文本交流還是通過(guò)某種潛在變量?目前還不清楚,我認(rèn)為這是一個(gè)非常令人興奮的新研究方向。

Sonya Huang

你覺(jué)得我們能夠通過(guò)擴(kuò)展和 Transformer 技術(shù)突破“系統(tǒng)一”思維嗎?還是說(shuō)要祈禱好運(yùn)、看事態(tài)發(fā)展?

Jim Fan

我當(dāng)然希望我之前描述的數(shù)據(jù)策略能幫助我們實(shí)現(xiàn)這一目標(biāo)。因?yàn)槲矣X(jué)得我們還沒(méi)有完全發(fā)揮出 Transformer 的潛力。

從本質(zhì)上講, Transformer 是通過(guò)輸入和輸出 token 來(lái)工作的。最終, token 的質(zhì)量決定了這些大型 Transformer 模型的質(zhì)量。

對(duì)于機(jī)器人來(lái)說(shuō),正如我提到的,數(shù)據(jù)策略非常復(fù)雜。我們既有互聯(lián)網(wǎng)數(shù)據(jù),也需要模擬數(shù)據(jù)和真實(shí)機(jī)器人數(shù)據(jù)。

一旦我們能夠擴(kuò)展數(shù)據(jù)管道,并獲得高質(zhì)量的動(dòng)作數(shù)據(jù),我們就可以將這些數(shù)據(jù) token 化,并將其輸入 Transformer 進(jìn)行壓縮。所以我覺(jué)得 Transformer 的潛力還未完全發(fā)揮出來(lái)。

一旦我們解決了數(shù)據(jù)策略問(wèn)題,我們可能會(huì)看到一些隨著數(shù)據(jù)和模型規(guī)模擴(kuò)展而出現(xiàn)的涌現(xiàn)現(xiàn)象。我稱(chēng)之為具身智能的“Scaling Law”,這才剛剛開(kāi)始。

Stephanie Zhan

我對(duì)此非常樂(lè)觀(guān)。很好奇的是,當(dāng)我們到達(dá)那個(gè)突破點(diǎn)時(shí),你個(gè)人最期待看到的是什么?你認(rèn)為哪個(gè)行業(yè)、應(yīng)用或用例會(huì)完全改變今天的機(jī)器人世界?

Jim Fan

是的。實(shí)際上,我們選擇人形機(jī)器人作為主要研究方向有幾個(gè)原因。一個(gè)原因是,世界是圍繞人體形態(tài)設(shè)計(jì)的,所有的餐館、工廠(chǎng)、醫(yī)院以及我們的設(shè)備和工具都是為人類(lèi)及其手形設(shè)計(jì)的。

因此,原則上,一個(gè)足夠先進(jìn)的人形機(jī)器人硬件應(yīng)該能夠完成任何一個(gè)普通人類(lèi)可以完成的任務(wù)。

雖然當(dāng)前的人形機(jī)器人硬件還沒(méi)有達(dá)到那個(gè)水平,但我相信在未來(lái)兩到三年內(nèi),人形機(jī)器人硬件生態(tài)系統(tǒng)將會(huì)成熟。

屆時(shí),我們將擁有可負(fù)擔(dān)得起的人形機(jī)器人硬件,問(wèn)題將變成如何為這些人形機(jī)器人提供 AI 大腦。

一旦我們擁有了能夠接受任何語(yǔ)言指令并完成任何人類(lèi)能做的任務(wù)的通用基礎(chǔ)模型,我們就可以釋放大量經(jīng)濟(jì)價(jià)值。比如我們可以在家庭中擁有機(jī)器人,幫助我們做家務(wù)、洗衣、洗碗、做飯,或者照顧老人。

我們還可以在餐館、醫(yī)院、工廠(chǎng)中使用它們,幫助完成各種人類(lèi)的工作。我希望這能在未來(lái)十年內(nèi)實(shí)現(xiàn)。

不過(guò)正如我之前提到的,這不僅僅是技術(shù)問(wèn)題,還涉及許多技術(shù)之外的問(wèn)題,我對(duì)此充滿(mǎn)期待。

Sonya Huang

你們選擇專(zhuān)注于人形機(jī)器人還有其他原因嗎?

Jim Fan

是的。還有一些更實(shí)際的原因,比如訓(xùn)練管道方面。關(guān)于人類(lèi)的數(shù)據(jù)在網(wǎng)上有很多,視頻中的內(nèi)容大多是以人為中心的,人類(lèi)在執(zhí)行日常任務(wù)或娛樂(lè)活動(dòng)。

人形機(jī)器人的外形最接近人類(lèi)的形態(tài),這意味著我們用這些數(shù)據(jù)訓(xùn)練的模型可以更容易地遷移到人形機(jī)器人形態(tài),而不是其他形態(tài)。

比如說(shuō),關(guān)于機(jī)器人手臂和夾爪的視頻有多少?很少見(jiàn)吧。但我們能看到很多關(guān)于人類(lèi)用五指手工作的視頻。

因此,訓(xùn)練人形機(jī)器人可能更容易。一旦我們擁有了這些基礎(chǔ)模型,我們可以進(jìn)一步專(zhuān)門(mén)化它們,應(yīng)用到機(jī)器人手臂等更具體的機(jī)器人形態(tài)上。這就是為什么我們首先追求全面的解決方案。

Stephanie Zhan

你們目前只專(zhuān)注于人形機(jī)器人嗎,還是也會(huì)涉及機(jī)器人手臂或機(jī)器狗?

Jim Fan

Project Groot 目前主要專(zhuān)注于人形機(jī)器人。但我們構(gòu)建的管道,包括模擬工具和真實(shí)機(jī)器人工具,足夠通用,將來(lái)也可以適應(yīng)其他平臺(tái)。因此,我們正在構(gòu)建這些工具,以便廣泛適用。

Sonya Huang

你多次提到“通用”這個(gè)詞。我認(rèn)為機(jī)器人領(lǐng)域的一些人認(rèn)為通用方法行不通,必須針對(duì)特定領(lǐng)域和環(huán)境。為什么你們選擇了通用的方法?我們節(jié)目里經(jīng)常提到Richard Sutton的“苦澀教訓(xùn)”。你認(rèn)為這在機(jī)器人領(lǐng)域也適用嗎?

Jim Fan

絕對(duì)適用。我想首先談?wù)勎覀冊(cè)谧匀徽Z(yǔ)言處理( NLP )領(lǐng)域看到的成功案例。在ChaggbT和 GPT-3 出現(xiàn)之前, NLP 領(lǐng)域有很多專(zhuān)門(mén)針對(duì)不同應(yīng)用的模型和管道,比如翻譯、編程、數(shù)學(xué)運(yùn)算和創(chuàng)意寫(xiě)作,它們都使用了不同的模型和訓(xùn)練管道。但ChaggbT出現(xiàn)后,將所有這些應(yīng)用統(tǒng)一到了一個(gè)單一的模型中。

我們稱(chēng)這些為“通才”模型。而一旦有了通才模型,我們就可以通過(guò)提示、精煉等方式將它們專(zhuān)用于具體任務(wù),形成“專(zhuān)才”模型。

根據(jù)歷史趨勢(shì),幾乎總是專(zhuān)才通才模型比原始的專(zhuān)才模型要強(qiáng)大得多,而且維護(hù)起來(lái)更簡(jiǎn)單,因?yàn)橹挥幸粋€(gè) API ,它輸入文本,輸出文本。因此,我認(rèn)為我們可以遵循 NLP 領(lǐng)域的成功路徑,這在機(jī)器人領(lǐng)域也將如此。

到 2024 年,大多數(shù)機(jī)器人應(yīng)用仍處于專(zhuān)才階段,即針對(duì)特定任務(wù)、特定硬件、特定數(shù)據(jù)管道的專(zhuān)門(mén)模型。

但 Project Groot 的目標(biāo)是構(gòu)建一個(gè)通用的基礎(chǔ)模型,首先用于人形機(jī)器人,然后推廣到各種機(jī)器人形態(tài)或具身形式。這就是我們追求的通才時(shí)刻。

一旦我們有了通才模型,我們可以對(duì)其進(jìn)行定制,使其適用于具體的機(jī)器人任務(wù)。而這些將成為專(zhuān)才通才模型的體現(xiàn)。

但在擁有通才模型之前,這一切還不會(huì)發(fā)生。因此,從短期來(lái)看,追求專(zhuān)才模型會(huì)更容易,因?yàn)槟阒恍鑼?zhuān)注于非常狹窄的任務(wù)領(lǐng)域。

但我們?cè)?Nvidia 相信未來(lái)屬于通才模型,盡管它需要更長(zhǎng)的開(kāi)發(fā)時(shí)間,也有更多的研究難題要解決,但這是我們首先追求的目標(biāo)。

Stephanie Zhan

Nvidia 構(gòu)建 Project Groot 的另一個(gè)有趣之處在于,正如你之前提到的, Nvidia 既擁有芯片也擁有模型。你認(rèn)為 Nvidia 可以做些什么來(lái)在自家芯片上優(yōu)化Groot模型?

Jim Fan

是的,在今年 3 月的 GTC 大會(huì)上,Jensen還發(fā)布了下一代邊緣計(jì)算芯片,稱(chēng)為Jensen Source芯片,它實(shí)際上是與Project Groot一起發(fā)布的。

我們的想法是,向客戶(hù)提供一個(gè)從芯片級(jí)別(Jensen Source系列芯片)到基礎(chǔ)模型(Project Groot),再到模擬工具和沿途開(kāi)發(fā)的其他實(shí)用工具的完整技術(shù)棧。這將成為一個(gè)面向人形機(jī)器人以及智能機(jī)器人的計(jì)算平臺(tái)。

我想引用 Jensen 的一句名言,這是我最喜歡的之一:“所有能夠移動(dòng)的東西最終都會(huì)實(shí)現(xiàn)自主化?!蔽乙蚕嘈胚@一點(diǎn)。

雖然現(xiàn)在還沒(méi)有實(shí)現(xiàn),但我們可以預(yù)見(jiàn),在未來(lái)十年或更長(zhǎng)時(shí)間內(nèi),如果我們相信將來(lái)會(huì)有和 iPhone 一樣多的智能機(jī)器人,我們最好從今天開(kāi)始建設(shè)。

Sonya Huang

太棒了!你們的研究目前是否有特別值得強(qiáng)調(diào)的成果?有什么讓你對(duì)你們的方法充滿(mǎn)信心或樂(lè)觀(guān)的嗎?

Jim Fan

是的,我們可以談?wù)勔恍┲暗墓ぷ?。其中我非常滿(mǎn)意的一項(xiàng)工作叫做URAC。我們?cè)谶@個(gè)項(xiàng)目中做了一個(gè)演示,訓(xùn)練一個(gè)五指機(jī)器人手進(jìn)行轉(zhuǎn)筆的動(dòng)作。

對(duì)我個(gè)人來(lái)說(shuō),這特別幽默,因?yàn)槲乙呀?jīng)放棄了轉(zhuǎn)筆這個(gè)技能。所以我自己做不到,但機(jī)器人手卻可以。而我們用來(lái)訓(xùn)練它的方法是,我們使用 LLM 來(lái)編寫(xiě)代碼,控制由 Nvidia 構(gòu)建的模擬 API ,稱(chēng)為 i6M API 。LLM 輸出代碼來(lái)定義獎(jiǎng)勵(lì)函數(shù)。

獎(jiǎng)勵(lì)函數(shù)基本上就是我們希望機(jī)器人完成的理想行為的規(guī)范。如果機(jī)器人走在正確的軌道上,它就會(huì)獲得獎(jiǎng)勵(lì);如果做錯(cuò)了事,就會(huì)受到懲罰。

通常,獎(jiǎng)勵(lì)函數(shù)是由一個(gè)非常了解 API 的機(jī)器人專(zhuān)家設(shè)計(jì)的,這是一個(gè)需要高度專(zhuān)業(yè)知識(shí)的工作,而且過(guò)程非常繁瑣和手動(dòng)。

我們開(kāi)發(fā)了一種算法,使用 LLM 來(lái)自動(dòng)化獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),讓機(jī)器人能夠完成復(fù)雜的任務(wù),比如轉(zhuǎn)筆。

這是一種通用技術(shù),我們計(jì)劃將其擴(kuò)展到不僅僅是轉(zhuǎn)筆,它應(yīng)該能夠?yàn)楦鞣N任務(wù)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),甚至可以通過(guò) Nvidia 的模擬 API 生成新的任務(wù)。這為我們的進(jìn)一步發(fā)展提供了廣闊的空間。

Sonya Huang

我記得五年前有一些研究團(tuán)隊(duì)在解決魔方問(wèn)題,用機(jī)器人手來(lái)完成,當(dāng)時(shí)感覺(jué)機(jī)器人領(lǐng)域經(jīng)歷了一個(gè)“幻滅期”。而在過(guò)去一年左右,這個(gè)領(lǐng)域似乎又熱起來(lái)了。

你認(rèn)為為什么現(xiàn)在是機(jī)器人領(lǐng)域的“時(shí)機(jī)”?有什么不同的地方嗎?我們聽(tīng)說(shuō) OpenAI 也在重新進(jìn)入機(jī)器人領(lǐng)域,大家都在加大努力。你覺(jué)得有什么變化嗎?

Jim Fan

是的,我認(rèn)為現(xiàn)在有幾個(gè)關(guān)鍵因素與之前不同。首先是機(jī)器人硬件。從去年年底開(kāi)始,我們看到了機(jī)器人硬件生態(tài)系統(tǒng)的激增。

像特斯拉在開(kāi)發(fā) Optimus,波士頓動(dòng)力(Boston Dynamics)等,還有很多初創(chuàng)公司。我們看到硬件越來(lái)越強(qiáng)大,具有更好的靈活手和全身可靠性。第二個(gè)因素是價(jià)格下降。

我們看到人形機(jī)器人的制造成本顯著下降。比如 2001 年,NASA 開(kāi)發(fā)了一個(gè)人形機(jī)器人,叫做 Robonaut,如果我沒(méi)記錯(cuò)的話(huà),每個(gè)機(jī)器人成本超過(guò) 150 萬(wàn)美元。

最近一些公司能夠?qū)⑷δ苋诵螜C(jī)器人的價(jià)格定在大約 3 萬(wàn)美元左右,大致相當(dāng)于一輛車(chē)的價(jià)格。

而且隨著產(chǎn)品的成熟,它的價(jià)格通常會(huì)趨向于原材料成本。對(duì)于人形機(jī)器人,原材料成本通常只有汽車(chē)的4%左右。

所以未來(lái)幾年,我們可能會(huì)看到成本急劇下降。這使得這些硬件越來(lái)越負(fù)擔(dān)得起,這是人形機(jī)器人再次獲得動(dòng)能的第二個(gè)因素。

第三個(gè)因素是在基礎(chǔ)模型方面。我們看到 LLM (如GPT、Claude、Llama等)在解決推理和規(guī)劃問(wèn)題方面表現(xiàn)得非常出色。這些模型能夠很好地泛化,能夠編寫(xiě)代碼。

我們提到的 URAC 項(xiàng)目正是利用了這些語(yǔ)言模型的編程能力來(lái)開(kāi)發(fā)新的機(jī)器人解決方案。還有多模態(tài)模型的興起,提升了計(jì)算機(jī)視覺(jué)和感知能力。

我認(rèn)為這些成功也鼓勵(lì)我們追求機(jī)器人基礎(chǔ)模型,因?yàn)槲覀兛梢岳眠@些前沿模型的泛化能力,并在其上添加動(dòng)作層,生成最終驅(qū)動(dòng)人形機(jī)器人的動(dòng)作 token 。

Stephanie Zhan

我完全理解這一切。你提到的很多研究進(jìn)展,許多是你自己在Centauril等項(xiàng)目中做出的貢獻(xiàn),再加上 Nvidia 的工具(如IZX等)極大地加速了該領(lǐng)域的進(jìn)展,尤其是在傳感和更便宜的傳感設(shè)備等方面。所以我覺(jué)得現(xiàn)在是從事這個(gè)領(lǐng)域工作的非常激動(dòng)人心的時(shí)刻。

Jim Fan

是的,我同意。

Sonya Huang

我記得你最初的研究更多是在虛擬世界領(lǐng)域。你能不能談?wù)勈鞘裁醋屇銓?duì) Minecraft 和機(jī)器人產(chǎn)生了興趣?在你看來(lái),它們是否是相關(guān)的?是什么讓你對(duì)虛擬世界產(chǎn)生了興趣?

Jim Fan

這是個(gè)好問(wèn)題。對(duì)我來(lái)說(shuō),我的個(gè)人使命是解決具身智能問(wèn)題,而虛擬世界中的具身智能智能體就是像游戲和模擬中的那些智能體。因此我對(duì)游戲也有非常特別的情感。我自己也很喜歡玩游戲。

Stephanie Zhan

你玩什么游戲?

Jim Fan

我玩 Minecraft ,我試過(guò),但我并不是一個(gè)非常好的玩家。所以我希望我的 AI 能彌補(bǔ)我糟糕的游戲技巧。我之前參與了幾個(gè)游戲項(xiàng)目。第一個(gè)是叫做Mind Dojo的項(xiàng)目,我們?cè)?Minecraft 游戲中開(kāi)發(fā)了一種通用智能體平臺(tái)。

對(duì)于不熟悉的觀(guān)眾來(lái)說(shuō), Minecraft 是一個(gè)開(kāi)放的體素世界,你可以在其中做任何你想做的事情。你可以制作各種工具,冒險(xiǎn),它是一個(gè)開(kāi)放式游戲,沒(méi)有特定的得分目標(biāo),也沒(méi)有固定的劇情。

我們從互聯(lián)網(wǎng)上收集了大量數(shù)據(jù),有人玩 Minecraft 的視頻,也有解釋游戲機(jī)制的wiki頁(yè)面,這些是多模態(tài)文檔,還有像 Reddit 的 Minecraft 子論壇,那里有很多人用自然語(yǔ)言討論游戲。

我們收集了這些多模態(tài)數(shù)據(jù)集,訓(xùn)練模型來(lái)玩 Minecraft 。這個(gè)項(xiàng)目叫做 Mind Dojo。后來(lái)第二個(gè)項(xiàng)目叫做 Voyager 。這個(gè)想法是在 GPT-4 發(fā)布后產(chǎn)生的,因?yàn)樗钱?dāng)時(shí)最好的編程模型。

于是我們想,如果我們將編程作為行動(dòng)呢?基于這個(gè)想法,我們開(kāi)發(fā)了 Voyager 智能體,它通過(guò)編寫(xiě)代碼與 Minecraft 世界互動(dòng)。

我們使用一個(gè) API 將 3D 的 Minecraft 世界轉(zhuǎn)換為文本表示,然后讓智能體使用行動(dòng) API 編寫(xiě)代碼。就像人類(lèi)開(kāi)發(fā)者一樣,智能體并不總是能在第一次寫(xiě)出正確的代碼。

所以我們給它一個(gè)自我反思循環(huán),如果它在 Minecraft 世界中遇到錯(cuò)誤或做錯(cuò)了事,它會(huì)收到反饋并修正它的程序。一旦它寫(xiě)出了正確的程序,我們稱(chēng)之為技能,它會(huì)將其保存到一個(gè)技能庫(kù)中。

以后當(dāng)智能體遇到類(lèi)似的情況時(shí),它不需要再次經(jīng)歷試錯(cuò)過(guò)程,可以直接從技能庫(kù)中調(diào)用技能。

你可以將這個(gè)技能庫(kù)視為一個(gè)代碼庫(kù),它是由 Voyager 自己互動(dòng)地構(gòu)建的,完全沒(méi)有人類(lèi)干預(yù)。整個(gè)代碼庫(kù)都是 Voyager 自己開(kāi)發(fā)的。

這是第二個(gè)機(jī)制,技能庫(kù)。第三個(gè)機(jī)制是我們稱(chēng)之為自動(dòng)課程生成。智能體知道它知道什么,也知道它不知道什么。

因此它能夠提出下一個(gè)任務(wù),這個(gè)任務(wù)既不會(huì)太難也不會(huì)太簡(jiǎn)單,然后它能夠沿著這條路徑發(fā)現(xiàn)各種技能、工具,并在 Minecraft 的廣闊世界中旅行。

因?yàn)樗眯械煤芏?,所以我們稱(chēng)之為 Voyager 。所以這就是我們團(tuán)隊(duì)最早構(gòu)建具身智能體與虛擬世界交互的嘗試之一。

Sonya Huang

談?wù)勀銊偛盘岬降恼n程生成機(jī)制,我覺(jué)得這非常有趣,因?yàn)檫@似乎是推理和 LLM 世界中尚未完全解決的問(wèn)題之一。

如何讓這些模型自我意識(shí)到下一步該做什么以提高自己?你能否再詳細(xì)談?wù)勀銈冊(cè)谡n程生成和推理方面的構(gòu)建?

Jim Fan

當(dāng)然。我認(rèn)為這些前沿模型展示了一種非常有趣的涌現(xiàn)特性,它們能夠反思自己的行為,并且它們似乎知道自己掌握了什么、還不知道什么,能夠據(jù)此提出任務(wù)。

在 Voyager 中,我們給智能體設(shè)定了一個(gè)高層指令,那就是盡可能多地發(fā)現(xiàn)新的物品。

我們只給了這個(gè)一句話(huà)的目標(biāo),沒(méi)給出任何關(guān)于先發(fā)現(xiàn)哪些物品、先解鎖哪些工具的指令。

智能體通過(guò)編碼、提示和技能庫(kù)自己發(fā)現(xiàn)了這些。這種系統(tǒng)的工作方式非常驚人,我認(rèn)為這是一種在擁有強(qiáng)大推理引擎后自然涌現(xiàn)的特性。

Sonya Huang

你認(rèn)為為什么這么多的虛擬世界研究都集中在虛擬世界?我相信不僅僅是因?yàn)樵S多深度學(xué)習(xí)研究人員喜歡玩電子游戲,雖然這可能也有點(diǎn)幫助。你覺(jué)得在虛擬世界中解決問(wèn)題與物理世界中的問(wèn)題有什么聯(lián)系??jī)烧呷绾蜗嗷ビ绊懀?/p>

Jim Fan

是的,我一直認(rèn)為游戲和機(jī)器人之間有很多相似的原則。對(duì)于具身智能體來(lái)說(shuō),它們的輸入是感知信息,比如視頻流和一些感官輸入,輸出則是行動(dòng)。

在游戲中,這可能是鍵盤(pán)和鼠標(biāo)的動(dòng)作,而在機(jī)器人中則是低級(jí)別的運(yùn)動(dòng)控制。所以從 API 的角度看,這兩者是相似的。

這些智能體需要探索世界,某種程度上需要自己收集數(shù)據(jù),這就是我們所謂的強(qiáng)化學(xué)習(xí)和自我探索,而這一原則在物理智能體和虛擬智能體中都是共享的。但不同之處在于,機(jī)器人技術(shù)更難,因?yàn)槟阈枰缭侥M與現(xiàn)實(shí)的差距。

在模擬中,物理和渲染永遠(yuǎn)無(wú)法完美,所以將模擬中學(xué)到的東西轉(zhuǎn)移到現(xiàn)實(shí)世界是一大挑戰(zhàn),這是一個(gè)開(kāi)放的研究問(wèn)題。

因此,機(jī)器人技術(shù)有一個(gè)“模擬與現(xiàn)實(shí)差距”問(wèn)題,而游戲則沒(méi)有。你是在同一個(gè)環(huán)境中訓(xùn)練和測(cè)試。因此,這是它們之間的區(qū)別之一。

去年我提出了一個(gè)概念,叫做基礎(chǔ)智能體(Foundation Agent),我相信最終我們會(huì)擁有一個(gè)可以同時(shí)應(yīng)用于虛擬和物理智能體的模型。

基礎(chǔ)智能體將能夠在三個(gè)方面實(shí)現(xiàn)泛化:第一是它能夠執(zhí)行的技能,第二是它能夠控制的具身形態(tài),第三是它能夠掌握的世界,無(wú)論是虛擬世界還是現(xiàn)實(shí)世界。這就是我們GER團(tuán)隊(duì)想要追求的終極愿景,基礎(chǔ)智能體。

Stephanie Zhan

談到虛擬世界和游戲領(lǐng)域,你已經(jīng)在開(kāi)放環(huán)境中解鎖了一些推理和涌現(xiàn)行為。在游戲世界里,你個(gè)人的夢(mèng)想是什么?你希望 AI 智能體在游戲領(lǐng)域帶來(lái)怎樣的創(chuàng)新?

Jim Fan

是的,我對(duì)兩個(gè)方面特別興奮。首先是游戲中的智能體?,F(xiàn)在的 NPC (非玩家角色)有固定的腳本,都是手動(dòng)編寫(xiě)的。但如果我們有真正“活著”的 NPC 呢?

他們能夠記住你之前告訴他們的事情,并且可以在游戲世界中采取行動(dòng),改變游戲的敘事和故事發(fā)展。這是我們還沒(méi)有見(jiàn)到的,但我覺(jué)得這里有巨大的潛力。

這樣一來(lái),每個(gè)人玩同一個(gè)游戲都會(huì)有不同的體驗(yàn),甚至一個(gè)人兩次玩同一個(gè)游戲,故事也不一樣,這樣每個(gè)游戲都有無(wú)限的重玩價(jià)值。

第二個(gè)方面是游戲世界本身的生成。我們已經(jīng)看到了許多工具在做這方面的部分工作,比如從文本生成 3D 資產(chǎn),或者從文本生成視頻的模型,還有能夠生成故事情節(jié)的語(yǔ)言模型。

如果我們把這些工具結(jié)合起來(lái),那么游戲世界可以在你玩的時(shí)候即時(shí)生成,并與你互動(dòng)。這將是非常令人驚嘆的,也是一個(gè)真正開(kāi)放式的體驗(yàn)。

Stephanie Zhan

特別有趣。關(guān)于智能體的愿景,你覺(jué)得需要 GPT-4 級(jí)別的能力嗎?還是像 Llama 8B 這樣的模型就能實(shí)現(xiàn)?

Jim Fan

我認(rèn)為智能體需要具備幾個(gè)關(guān)鍵能力。首先,它需要能夠進(jìn)行有趣的對(duì)話(huà),擁有一致的個(gè)性,具備長(zhǎng)期記憶,還要能夠在世界中采取行動(dòng)。

就這些方面而言,目前的 Llama 模型已經(jīng)相當(dāng)不錯(cuò),但還不足以產(chǎn)生非常多樣化和引人入勝的行為。因此,我認(rèn)為在這方面仍有差距。另一個(gè)問(wèn)題是推理成本。

如果我們想將這些智能體部署給游戲玩家,要么需要非常低的云托管成本,要么能夠在本地設(shè)備上運(yùn)行,否則在成本上是不可擴(kuò)展的。所以這是另一個(gè)需要優(yōu)化的因素。

Sonya Huang

你覺(jué)得在虛擬世界中的所有工作,是否是為了服務(wù)于物理世界的目標(biāo)?還是說(shuō)虛擬世界本身就是一個(gè)足夠有價(jià)值的領(lǐng)域?你如何在物理世界和虛擬世界之間平衡你的工作優(yōu)先級(jí)?

Jim Fan

我認(rèn)為虛擬世界和物理世界最終只是在同一個(gè)軸上的不同現(xiàn)實(shí)。舉個(gè)例子,有一種技術(shù)叫做領(lǐng)域隨機(jī)化,它的工作原理是你在模擬中訓(xùn)練機(jī)器人,但同時(shí)在 1 萬(wàn)個(gè)不同的模擬中并行訓(xùn)練,每個(gè)模擬的物理參數(shù)都不同,比如重力、摩擦力、重量等。這實(shí)際上是 1 萬(wàn)個(gè)不同的世界。

如果我們有一個(gè)智能體能夠掌握所有這 1 萬(wàn)個(gè)不同的現(xiàn)實(shí)配置,那么我們現(xiàn)實(shí)的物理世界就只是第 1 萬(wàn)零一個(gè)模擬。在這種情況下,我們能夠從虛擬世界直接泛化到現(xiàn)實(shí)世界。

這實(shí)際上正是我們?cè)?Eureka 后續(xù)工作中所做的。我們使用各種隨機(jī)化的模擬訓(xùn)練智能體,然后無(wú)需進(jìn)一步微調(diào),就能夠?qū)⑵渲苯愚D(zhuǎn)移到現(xiàn)實(shí)世界。

我相信這種方法是有效的。如果我們有各種虛擬世界(包括游戲世界),并且有一個(gè)智能體能夠在所有這些世界中掌握各種技能,那么現(xiàn)實(shí)世界只是更大分布中的一部分。

Stephanie Zhan

你能不能跟大家分享一下 Dr. Eureka 項(xiàng)目?

Jim Fan

當(dāng)然。在 Dr. Eureka 項(xiàng)目中,我們基于 Eureka 的成果,依然使用 LLM 作為機(jī)器人開(kāi)發(fā)者。LLM 會(huì)編寫(xiě)代碼,代碼用于指定模擬參數(shù),比如領(lǐng)域隨機(jī)化參數(shù)。

經(jīng)過(guò)幾次迭代后,我們?cè)谀M中訓(xùn)練的策略能夠泛化到現(xiàn)實(shí)世界。我們展示的一個(gè)具體例子是,我們讓一個(gè)機(jī)器人狗在瑜伽球上行走,它不僅能夠保持平衡,還能向前行走。

有一個(gè)非常有趣的評(píng)論,有人讓自己的真狗去嘗試這個(gè)任務(wù),結(jié)果發(fā)現(xiàn)它的狗真的能做到這一點(diǎn)。所以在某種程度上,我們的神經(jīng)網(wǎng)絡(luò)超越了“真狗”的表現(xiàn)。

Sonya Huang

我敢肯定我的狗是做不到的,哈哈。

Jim Fan

是的,人工狗智能(ADI),這是下一本冒險(xiǎn)書(shū)的主題。

Sonya Huang

在虛擬世界領(lǐng)域,最近出現(xiàn)了很多令人難以置信的 3D 和視頻生成模型,許多都是基于 Transformer 的。你覺(jué)得我們是否已經(jīng)達(dá)到了那個(gè)可以憑借這些架構(gòu)實(shí)現(xiàn)理想目標(biāo)的階段?或者你認(rèn)為在模型架構(gòu)方面仍然需要一些突破?

Jim Fan

是的,我認(rèn)為在機(jī)器人基礎(chǔ)模型方面,我們還沒(méi)有充分發(fā)揮 Transformer 架構(gòu)的極限。當(dāng)前更大的瓶頸是數(shù)據(jù)問(wèn)題。

正如我之前提到的,我們無(wú)法從互聯(lián)網(wǎng)上下載機(jī)器人控制的數(shù)據(jù)。我們必須在模擬中或通過(guò)真實(shí)機(jī)器人收集這些數(shù)據(jù)。

一旦我們有了成熟的數(shù)據(jù)管道,我們就可以將這些數(shù)據(jù) token 化,然后將它們送入 Transformer 進(jìn)行壓縮,就像 Transformer 預(yù)測(cè) Wikipedia 上的下一個(gè)詞一樣。

我們?nèi)栽隍?yàn)證這些假設(shè),但我認(rèn)為 Transformer 的極限還未被充分探索。目前也有很多替代 Transformer 架構(gòu)的研究,我對(duì)此非常感興趣。

最近有一種叫做測(cè)試時(shí)訓(xùn)練(test-time training)的架構(gòu),還有一些其他的替代方案,它們提出了一些非常有前景的想法。雖然這些替代架構(gòu)還沒(méi)有達(dá)到最前沿模型的表現(xiàn),但我期待看到更多 Transformer 的替代方案出現(xiàn)。

Stephanie Zhan

有沒(méi)有什么特別吸引你注意的模型,為什么?

Jim Fan

是的,我提到了“member”工作和“測(cè)試時(shí)訓(xùn)練”模型,這些模型在不同時(shí)間點(diǎn)表現(xiàn)得更有效率。與 Transformer 模型需要處理所有過(guò)去的 token 不同,這些模型有更高效的內(nèi)在機(jī)制,所以我覺(jué)得它們很有前途。不過(guò),我們需要將它們擴(kuò)展到前沿模型的規(guī)模,才能真正看到它們與 Transformer 的正面對(duì)比。

Stephanie Zhan

具身智能領(lǐng)域之外,你對(duì) AI 最感興趣的是什么?

Jim Fan

我對(duì)視頻生成特別興奮,因?yàn)槲艺J(rèn)為視頻生成是一種世界模擬器。我們可以從數(shù)據(jù)中學(xué)習(xí)物理和渲染。我們已經(jīng)看到了像 OpenAI 的 Sora 這樣的模型,后來(lái)有很多新模型跟上了 Sora,所以這是一個(gè)正在進(jìn)行的研究話(huà)題。

Sonya Huang

世界模擬器能帶給我們什么?

Jim Fan

我認(rèn)為它能為我們帶來(lái)一個(gè)數(shù)據(jù)驅(qū)動(dòng)的模擬環(huán)境,在其中我們可以訓(xùn)練具身智能,那將會(huì)非常了不起。

Stephanie Zhan

從長(zhǎng)期來(lái)看,你對(duì) AI 最感興趣的是什么?十年或更久以后?

Jim Fan

有幾個(gè)方面。首先是推理方面,我對(duì)能夠編程的模型非常感興趣。我認(rèn)為編程是一個(gè)非?;A(chǔ)的推理任務(wù),同時(shí)具有巨大的經(jīng)濟(jì)價(jià)值。也許十年后,我們會(huì)有達(dá)到人類(lèi)水平的編程智能體,這將大大加速開(kāi)發(fā)進(jìn)程,使用這些大模型本身。第二個(gè)方面當(dāng)然是機(jī)器人技術(shù)。

我認(rèn)為十年后,我們將擁有像人類(lèi)一樣可靠和敏捷的人形機(jī)器人,甚至可能超越人類(lèi)。我希望到那時(shí),Project Groot會(huì)取得成功,我們能夠擁有幫助我們?nèi)粘I畹娜诵螜C(jī)器人。

我只是希望機(jī)器人能幫我洗衣服。這是我的夢(mèng)想。

Sonya Huang

你覺(jué)得哪一年機(jī)器人會(huì)幫我們洗衣服?

Jim Fan

越快越好,我已經(jīng)等不及了。

Sonya Huang

在 AI 領(lǐng)域,誰(shuí)最啟發(fā)你?你曾有機(jī)會(huì)與許多偉大的 AI 人物共事,最早可以追溯到你的實(shí)習(xí)時(shí)期?,F(xiàn)在誰(shuí)對(duì)你影響最大?

Jim Fan

我在 AI 領(lǐng)域有太多的英雄。首先,我非常敬佩我的博士導(dǎo)師 Fei-Fei Li。她教會(huì)了我如何培養(yǎng)良好的研究品味。

有時(shí)候,問(wèn)題不是如何解決,而是要確定哪些問(wèn)題值得解決。實(shí)際上,“什么問(wèn)題”比“如何解決問(wèn)題”要難得多。

在博士期間,我在她的指導(dǎo)下轉(zhuǎn)向了具身智能研究,現(xiàn)在回想起來(lái),這是正確的方向。我相信 AI 智能體的未來(lái)將是具身的,不論是用于機(jī)器人還是虛擬世界。

我也很敬佩 Andrej Karpathy,他是一位偉大的教育家,他寫(xiě)代碼就像寫(xiě)詩(shī)一樣,我非常仰慕他。還有 Jensen Huang,我對(duì)他的敬佩之情溢于言表。他不僅關(guān)心 AI 研究,還非常了解模型的技術(shù)細(xì)節(jié),這讓我非常佩服。

Stephanie Zhan

談到擁有良好的研究品味,你對(duì)那些在 AI 領(lǐng)域創(chuàng)業(yè)的創(chuàng)始人有何建議?他們?cè)撊绾握业秸_的問(wèn)題去解決?

Jim Fan

我認(rèn)為有一些研究論文現(xiàn)在變得越來(lái)越容易理解,里面有一些非常好的想法,而且越來(lái)越實(shí)用,而不僅僅是理論性的機(jī)器學(xué)習(xí)。因此,我建議大家保持對(duì)最新文獻(xiàn)的關(guān)注,同時(shí)嘗試其他人開(kāi)發(fā)的開(kāi)源工具。比如在 Nvidia ,我們開(kāi)發(fā)了模擬器工具,任何人都可以訪(fǎng)問(wèn)并下載,可以在模擬環(huán)境中試驗(yàn)機(jī)器人,親自實(shí)踐是非常重要的。

Stephanie Zhan

說(shuō)到 Jensen 作為一個(gè)偶像,你認(rèn)為那些在 AI 領(lǐng)域創(chuàng)業(yè)的創(chuàng)始人能從他身上學(xué)到哪些實(shí)用的建議?

Jim Fan

我認(rèn)為是找到正確的方向去努力。例如, Nvidia 押注于人形機(jī)器人,因?yàn)槲覀兿嘈胚@是未來(lái)。還有具身智能,如果我們相信十年后世界上會(huì)有和 iPhone 一樣多的智能機(jī)器人,那么我們最好今天就開(kāi)始努力。

作者:前沿君,公眾號(hào):前沿在線(xiàn)

本文由 @前沿在線(xiàn) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖由作者提供

該文觀(guān)點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!