婷婷激情五月,2021国产激情视频在线观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

紅杉美國(guó)對(duì)話(huà)英偉達(dá)科學(xué)家 Jim Fan：十年內(nèi)人形機(jī)器人將超越人類(lèi)的敏捷性和可靠性，所有可移動(dòng)的東西終將實(shí)現(xiàn)自主化

前沿在線(xiàn)

2024-09-28

0 評(píng)論 2649 瀏覽 5 收藏

50 分鐘

在人工智能和機(jī)器人技術(shù)迅速發(fā)展的今天，英偉達(dá)的高級(jí)研究科學(xué)家Jim Fan分享了他對(duì)具身智能和人形機(jī)器人未來(lái)的深刻見(jiàn)解。

近日，英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 與紅杉美國(guó)投資人展開(kāi)了一場(chǎng)關(guān)于具身智能、機(jī)器人技術(shù)以及虛擬世界領(lǐng)域的前沿思考。

Jim Fan 展示了英偉達(dá)在構(gòu)建智能機(jī)器人方面的長(zhǎng)期愿景，并討論了推動(dòng)這項(xiàng)技術(shù)的核心挑戰(zhàn)和突破機(jī)會(huì)。

Jim 指出，英偉達(dá)正在押注具身智能和人形機(jī)器人技術(shù)的發(fā)展。他認(rèn)為，未來(lái)十年內(nèi)，人形機(jī)器人將達(dá)到甚至超越人類(lèi)的敏捷性和可靠性。他們的目標(biāo)是為日常生活開(kāi)發(fā)可以承擔(dān)家庭瑣事（如洗衣）的機(jī)器人，從而極大地提升生活質(zhì)量和經(jīng)濟(jì)價(jià)值。

他特別強(qiáng)調(diào)了虛擬世界與物理世界的交叉影響。虛擬世界提供了一個(gè)強(qiáng)大的“世界模擬器”，讓研究者能夠通過(guò)模擬數(shù)據(jù)和領(lǐng)域隨機(jī)化技術(shù)加速機(jī)器人在現(xiàn)實(shí)中的應(yīng)用。

他提出，通過(guò)在虛擬環(huán)境中訓(xùn)練，智能體可以無(wú)縫泛化到物理世界，達(dá)到“零次微調(diào)”的轉(zhuǎn)移效果。

Jim 認(rèn)為，視頻生成是未來(lái) AI 的重要方向，因?yàn)樗軌蛞詳?shù)據(jù)驅(qū)動(dòng)的方式模擬世界，為 AI 模型提供真實(shí)的物理和渲染數(shù)據(jù)。他同時(shí)對(duì) AI 模型的推理能力（特別是編程能力）充滿(mǎn)期待，認(rèn)為在未來(lái)十年內(nèi)，AI 智能體將在自動(dòng)編程和加速軟件開(kāi)發(fā)方面取得重大進(jìn)展。

此外，Jim 還特別提到研究中的“品味”，即確定值得解決的問(wèn)題比尋找解決方案更難且更重要。

他提到了自己在李飛飛等導(dǎo)師的指導(dǎo)下，培養(yǎng)了識(shí)別哪些問(wèn)題能夠產(chǎn)生最大影響的能力，并認(rèn)為具身智能是未來(lái) AI 智能體的重要方向。他也建議 AI 創(chuàng)業(yè)者保持對(duì)最新文獻(xiàn)和工具的敏銳洞察，尋找能夠長(zhǎng)遠(yuǎn)發(fā)展的領(lǐng)域。

Jim 引用了英偉達(dá) CEO 黃仁勛的話(huà) —— 所有能夠移動(dòng)的東西最終都會(huì)實(shí)現(xiàn)自主化。

他認(rèn)為，隨著硬件技術(shù)和制造成本的下降，未來(lái)機(jī)器人將像 iPhone 一樣普及。英偉達(dá)正著手構(gòu)建一個(gè)從硬件到軟件的完整技術(shù)棧，以支持智能機(jī)器人的發(fā)展。

以下為這次對(duì)談的全部?jī)?nèi)容，enjoy～

Sonya Huang

今天我們邀請(qǐng)到了 Nvidia 的高級(jí)研究科學(xué)家Jim Fan。Jim領(lǐng)導(dǎo) Nvidia 的具身智能（Embodied AI ）智能體研究工作，涉及物理世界中的機(jī)器人技術(shù)和虛擬世界中的游戲智能體。

Jim 的團(tuán)隊(duì)負(fù)責(zé)了Project Groot項(xiàng)目，你可能在今年的 GTC 大會(huì)上看到過(guò)和Jensen同臺(tái)展示的視頻中出現(xiàn)的人形機(jī)器人。

今天我們很高興能和Jim討論關(guān)于機(jī)器人技術(shù)的一切問(wèn)題。為什么選擇現(xiàn)在？為什么是人形機(jī)器人？以及如何實(shí)現(xiàn)機(jī)器人領(lǐng)域的 GPT-3 時(shí)刻？

非常激動(dòng)能夠和大家分享關(guān)于機(jī)器人技術(shù)和具身智能的各種內(nèi)容。在我們深入討論之前，您的個(gè)人故事非常有趣。

你是 OpenAI 的第一位實(shí)習(xí)生，能不能給我們講一下你的個(gè)人經(jīng)歷，以及你是如何走到今天這一步的？

Jim Fan

當(dāng)然，我很愿意和大家分享這些故事。2016 年夏天，我的一些朋友告訴我，城里有一家新的初創(chuàng)公司讓我去看看。

我當(dāng)時(shí)心想：“嗯，我沒(méi)什么別的事情可做，因?yàn)槲乙呀?jīng)被錄取為博士生了?！?那個(gè)夏天我很空閑，所以我決定加入這家初創(chuàng)公司，而那家公司就是 OpenAI 。

在我加入 OpenAI 的那段時(shí)間，我們已經(jīng)在討論 AGI 了，而我的實(shí)習(xí)導(dǎo)師是 Andrej Karpathy 和 Iliya Sotskever。

我們一起討論并展開(kāi)了一個(gè)項(xiàng)目，叫做“World of Bits”。這個(gè)項(xiàng)目的想法非常簡(jiǎn)單，我們希望建立一個(gè) AI 智能體，它能夠讀取電腦屏幕上的像素信息，然后控制鍵盤(pán)和鼠標(biāo)。如果你仔細(xì)想想，這種界面是最通用的。

我們?cè)陔娔X上做的所有事情，比如回復(fù)郵件、玩游戲或?yàn)g覽網(wǎng)頁(yè)，都可以通過(guò)這個(gè)界面完成，將屏幕像素映射到鍵盤(pán)和鼠標(biāo)的控制。

這其實(shí)是我在 OpenAI 的第一次 AGI 嘗試，也是我 AI 智能體旅程的第一個(gè)篇章。

Stephanie Zhan

我記得“World of Bits”這個(gè)項(xiàng)目，我不知道你也參與其中，真是太有趣了。

Jim Fan

是的，那是一個(gè)非常有趣的項(xiàng)目，它也是 OpenAI Universe 平臺(tái)的一部分，這是一個(gè)將所有應(yīng)用程序和游戲整合到這個(gè)框架中的更大計(jì)劃。

Stephanie Zhan

你覺(jué)得當(dāng)時(shí)有哪些突破？另外，你認(rèn)為當(dāng)時(shí)在智能體領(lǐng)域面臨的主要挑戰(zhàn)是什么？

Jim Fan

是的，當(dāng)時(shí)我們主要使用的方法是強(qiáng)化學(xué)習(xí)。在 2016 年，還沒(méi)有 LLM 或 Transformer 模型。

強(qiáng)化學(xué)習(xí)在特定任務(wù)上確實(shí)有效，但它不具備廣泛的泛化能力。比如我們無(wú)法給智能體任何一種指令，要求它完成各種通過(guò)鍵盤(pán)和鼠標(biāo)操作的任務(wù)。當(dāng)時(shí)，它在我們?cè)O(shè)計(jì)的特定任務(wù)上有效，但沒(méi)有真正實(shí)現(xiàn)泛化。

這促使我進(jìn)入了下一個(gè)階段，我去了斯坦福大學(xué)。我開(kāi)始在斯坦福跟隨 Favilly 教授攻讀博士學(xué)位，主要研究計(jì)算機(jī)視覺(jué)和具身智能（Embodied AI ）。

在 2016 年到 2021 年我在斯坦福期間，我見(jiàn)證了斯坦福視覺(jué)實(shí)驗(yàn)室的轉(zhuǎn)變，從 Favilly 教授帶領(lǐng)的靜態(tài)計(jì)算機(jī)視覺(jué)，如識(shí)別圖像和視頻，轉(zhuǎn)變?yōu)榫呱碛?jì)算機(jī)視覺(jué)，即智能體在交互環(huán)境中學(xué)習(xí)感知并采取行動(dòng)。

這個(gè)環(huán)境可以是虛擬的（在模擬中），也可以是物理世界中的。所以這是我的博士階段，主要是從靜態(tài)視覺(jué)過(guò)渡到具身智能的研究。

在我博士畢業(yè)后，我加入了 Nvidia ，并一直工作到現(xiàn)在。我將博士論文中的研究?jī)?nèi)容帶到了 Nvidia ，并繼續(xù)從事具身智能的研究工作，直到今天。

Sonya Huang

你目前負(fù)責(zé) Nvidia 的具身智能計(jì)劃，可以簡(jiǎn)單介紹一下這個(gè)項(xiàng)目的含義，以及你們希望實(shí)現(xiàn)的目標(biāo)嗎？

Jim Fan

當(dāng)然。目前我共同領(lǐng)導(dǎo)的團(tuán)隊(duì)叫做 GER，代表具身智能體研究（Generalist Embodied Agent Research）。簡(jiǎn)單來(lái)說(shuō)，我們團(tuán)隊(duì)的工作可以總結(jié)為三個(gè)字：“生成行動(dòng)”。

因?yàn)槲覀儤?gòu)建具身智能智能體，而這些智能體會(huì)在不同的世界中采取行動(dòng)。如果這些行動(dòng)是在虛擬世界中進(jìn)行的，那就是游戲 AI 和模擬；如果是在物理世界中進(jìn)行的，那就是機(jī)器人技術(shù)。

事實(shí)上，今年 3 月的 GTC 大會(huì)上，Jensen 在他的主題演講中展示了一個(gè)叫做 Project Groot 的項(xiàng)目，這是 Nvidia 在構(gòu)建人形機(jī)器人基礎(chǔ)模型上的一項(xiàng)重要努力，而這正是 GER 團(tuán)隊(duì)目前的重點(diǎn)工作。我們希望為人形機(jī)器人乃至更廣泛的領(lǐng)域構(gòu)建 AI 大腦。

Stephanie Zhan

你認(rèn)為 Nvidia 在構(gòu)建這些技術(shù)上有什么競(jìng)爭(zhēng)優(yōu)勢(shì)？

Jim Fan

這是個(gè)很好的問(wèn)題。首先，毫無(wú)疑問(wèn)的是計(jì)算資源。所有這些基礎(chǔ)模型都需要大量的計(jì)算資源來(lái)擴(kuò)展。我們相信“Scaling Law”，類(lèi)似于 LLMScaling Law，但具身智能和機(jī)器人技術(shù)的 Scaling Law尚待研究，所以我們正在這方面做出努力。

Nvidia 的第二個(gè)優(yōu)勢(shì)是模擬技術(shù)。Nvidia 在成為一家 AI 公司之前，是一家圖形公司，所以我們?cè)跇?gòu)建模擬（如物理模擬、渲染）和GPU實(shí)時(shí)加速方面擁有多年的專(zhuān)業(yè)知識(shí)。因此，在構(gòu)建機(jī)器人技術(shù)時(shí)，我們大量使用模擬技術(shù)。

Stephanie Zhan

模擬策略非常有趣。你認(rèn)為為什么大多數(shù)行業(yè)仍然非常專(zhuān)注于現(xiàn)實(shí)世界的數(shù)據(jù)，而采用相反的策略呢？

Jim Fan

是的，我認(rèn)為我們需要各種數(shù)據(jù)。僅僅依靠模擬或現(xiàn)實(shí)世界的數(shù)據(jù)是不夠的。因此在GER（具身智能體研究團(tuán)隊(duì)）中，我們將數(shù)據(jù)策略大致分為三個(gè)部分：

第一是互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)，比如網(wǎng)上的標(biāo)簽和視頻。
第二是模擬數(shù)據(jù)，我們使用 Nvidia 的模擬工具生成大量的合成數(shù)據(jù)。
第三是實(shí)際機(jī)器人數(shù)據(jù)，我們通過(guò)在機(jī)器人平臺(tái)上操作機(jī)器人，收集并記錄這些數(shù)據(jù)。

我相信一個(gè)成功的機(jī)器人策略需要有效地利用這三種數(shù)據(jù)，混合它們并提供統(tǒng)一的解決方案。

Sonya Huang

你剛才提到的數(shù)據(jù)是實(shí)現(xiàn)機(jī)器人基礎(chǔ)模型工作的關(guān)鍵瓶頸，你能不能多談?wù)勀銓?duì)這個(gè)觀(guān)點(diǎn)的信念，以及需要什么樣的優(yōu)秀數(shù)據(jù)來(lái)突破這個(gè)問(wèn)題？

Jim Fan

好的，我認(rèn)為我剛才提到的三種不同類(lèi)型的數(shù)據(jù)各有優(yōu)缺點(diǎn)。首先是互聯(lián)網(wǎng)數(shù)據(jù)，它們是最具多樣性的，包含了大量的常識(shí)性先驗(yàn)知識(shí)。

比如大多數(shù)網(wǎng)上的視頻都是以人為中心的，因?yàn)槲覀兿矚g自拍，喜歡記錄彼此進(jìn)行各種活動(dòng)，也有很多教學(xué)視頻。

我們可以利用這些數(shù)據(jù)來(lái)學(xué)習(xí)人類(lèi)如何與物體交互，以及物體在不同情況下的行為，這為機(jī)器人基礎(chǔ)模型提供了常識(shí)性先驗(yàn)知識(shí)。

但是，互聯(lián)網(wǎng)數(shù)據(jù)沒(méi)有行動(dòng)信號(hào)，我們無(wú)法從互聯(lián)網(wǎng)上下載機(jī)器人的運(yùn)動(dòng)控制信號(hào)。

這就引出了第二種數(shù)據(jù)策略，即使用模擬。在模擬中，你可以擁有所有的動(dòng)作，并且可以觀(guān)察這些動(dòng)作在特定環(huán)境中的結(jié)果。

模擬的優(yōu)勢(shì)在于它基本上是無(wú)限的數(shù)據(jù)，數(shù)據(jù)量隨計(jì)算資源的增加而擴(kuò)展。投入越多的GPU，產(chǎn)生的數(shù)據(jù)就越多，而且數(shù)據(jù)是實(shí)時(shí)的。如果僅在真實(shí)機(jī)器人上收集數(shù)據(jù)，那么你會(huì)受到每天 24 小時(shí)的限制。

而通過(guò)GPU加速的模擬器，我們可以將實(shí)際時(shí)間加速到 1 萬(wàn)倍以上。在同樣的工作時(shí)間內(nèi)，我們能夠以更高的速度收集數(shù)據(jù)。

但模擬的弱點(diǎn)是無(wú)論圖形管道多么好，模擬與現(xiàn)實(shí)總會(huì)有差距。物理規(guī)律和視覺(jué)效果都與現(xiàn)實(shí)世界有所不同，且內(nèi)容的多樣性不如我們?cè)诂F(xiàn)實(shí)世界中遇到的情景。

最后是實(shí)際機(jī)器人數(shù)據(jù)，這些數(shù)據(jù)沒(méi)有模擬與現(xiàn)實(shí)的差距，因?yàn)樗鼈兪窃谡鎸?shí)機(jī)器人上收集的，但收集成本要高得多，因?yàn)樾枰腿瞬僮鳈C(jī)器人。

而且它們依然受限于現(xiàn)實(shí)世界的時(shí)間，每天只有 24 小時(shí)，還需要人類(lèi)來(lái)收集這些數(shù)據(jù)，成本非常高。

因此，我們認(rèn)為這三種類(lèi)型的數(shù)據(jù)各有優(yōu)勢(shì)，成功的策略是結(jié)合它們的優(yōu)勢(shì)，消除它們的劣勢(shì)。

Sonya Huang

那些在 Jensen 演講臺(tái)上的可愛(ài)機(jī)器人真是一個(gè)精彩的時(shí)刻。如果你有一個(gè)五年或十年的夢(mèng)想，你認(rèn)為你的團(tuán)隊(duì)會(huì)實(shí)現(xiàn)什么？

Jim Fan

這純粹是推測(cè)，但我希望我們能在接下來(lái)的兩到三年內(nèi)看到機(jī)器人基礎(chǔ)模型的研究突破，這就是我們所謂的機(jī)器人領(lǐng)域的 GPT-3 時(shí)刻。

之后就不確定了，因?yàn)橐寵C(jī)器人進(jìn)入人們的日常生活，不僅僅是技術(shù)問(wèn)題。機(jī)器人需要價(jià)格合理，并且能夠量產(chǎn)。我們還需要確保硬件的安全性以及隱私和法規(guī)方面的考慮。

這些問(wèn)題可能需要更長(zhǎng)的時(shí)間才能使機(jī)器人進(jìn)入大眾市場(chǎng)，所以這比較難以預(yù)測(cè)。但我希望研究突破能夠在未來(lái)兩三年內(nèi)到來(lái)。

Stephanie Zhan

你認(rèn)為 AI 機(jī)器人領(lǐng)域的 GPT-3 時(shí)刻會(huì)是什么樣子的？

Jim Fan

這是個(gè)好問(wèn)題。我喜歡將機(jī)器人技術(shù)分為兩個(gè)系統(tǒng)：系統(tǒng)一和系統(tǒng)二，這個(gè)概念來(lái)自《思考，快與慢》這本書(shū)。

系統(tǒng)一是低級(jí)的運(yùn)動(dòng)控制，它是無(wú)意識(shí)且快速的。例如，當(dāng)我拿起這杯水時(shí)，我不會(huì)真的思考每毫秒如何移動(dòng)手指。這就是系統(tǒng)一。

而系統(tǒng)二則是緩慢且深思熟慮的，它更像是推理和規(guī)劃，使用的是我們的有意識(shí)思維。我認(rèn)為 GPT-3 時(shí)刻將出現(xiàn)在系統(tǒng)一上。

我最喜歡的例子是“打開(kāi)”這個(gè)動(dòng)詞。想象一下“打開(kāi)”這個(gè)詞的復(fù)雜性。打開(kāi)門(mén)與打開(kāi)窗戶(hù)不同，打開(kāi)瓶子或手機(jī)的方式也不同。

但對(duì)人類(lèi)來(lái)說(shuō)，理解“打開(kāi)”在與不同物體交互時(shí)意味著不同的動(dòng)作并沒(méi)有任何問(wèn)題。但

是到目前為止，我們還沒(méi)有看到一個(gè)機(jī)器人模型能夠在低級(jí)別運(yùn)動(dòng)控制上對(duì)這些動(dòng)詞進(jìn)行泛化。

我希望能看到一個(gè)模型能夠理解這些動(dòng)詞的抽象含義，并能夠在各種對(duì)人類(lèi)有意義的場(chǎng)景中進(jìn)行泛化。我們還沒(méi)有看到這種情況，但我對(duì)未來(lái)兩三年內(nèi)出現(xiàn)這個(gè)時(shí)刻持樂(lè)觀(guān)態(tài)度。

Sonya Huang

關(guān)于“系統(tǒng)二”思維呢？你認(rèn)為我們?nèi)绾尾拍軐?shí)現(xiàn)這個(gè)目標(biāo)？你認(rèn)為在 LLM 領(lǐng)域的推理工作也會(huì)與機(jī)器人領(lǐng)域相關(guān)嗎？

Jim Fan

是的，絕對(duì)相關(guān)。我認(rèn)為在“系統(tǒng)二”方面，我們已經(jīng)看到了一些非常強(qiáng)大的模型，它們可以進(jìn)行推理、規(guī)劃，甚至編程。

這些正是我們今天看到的 LLM 和前沿模型。但將“系統(tǒng)二”模型與“系統(tǒng)一”整合起來(lái)，本身就是一個(gè)研究挑戰(zhàn)。

所以問(wèn)題是，針對(duì)機(jī)器人基礎(chǔ)模型，我們是否應(yīng)該有一個(gè)單一的大模型，還是采用某種級(jí)聯(lián)方法，保持“系統(tǒng)一”和“系統(tǒng)二”模型的獨(dú)立性，并讓它們通過(guò)某種方式進(jìn)行溝通？這仍然是一個(gè)懸而未決的問(wèn)題，它們各有優(yōu)缺點(diǎn)。

如果是第一個(gè)想法，模型會(huì)更簡(jiǎn)潔，只有一個(gè)模型，一個(gè) API 來(lái)維護(hù)。但這也更難控制，因?yàn)樗鼈兊目刂祁l率不同。

“系統(tǒng)二”模型的控制頻率較低，比如每秒一次決策（1Hz），而“系統(tǒng)一”則需要更高的控制頻率，比如每秒 1000 次決策（1000Hz），像我握住這杯水的微小運(yùn)動(dòng)就是每秒數(shù)千次的決策。這種不同頻率的控制難以通過(guò)單一模型實(shí)現(xiàn)。

所以，可能級(jí)聯(lián)的方法會(huì)更好。但問(wèn)題是，系統(tǒng)一和系統(tǒng)二之間如何溝通？它們通過(guò)文本交流還是通過(guò)某種潛在變量？目前還不清楚，我認(rèn)為這是一個(gè)非常令人興奮的新研究方向。

Sonya Huang

你覺(jué)得我們能夠通過(guò)擴(kuò)展和 Transformer 技術(shù)突破“系統(tǒng)一”思維嗎？還是說(shuō)要祈禱好運(yùn)、看事態(tài)發(fā)展？

Jim Fan

我當(dāng)然希望我之前描述的數(shù)據(jù)策略能幫助我們實(shí)現(xiàn)這一目標(biāo)。因?yàn)槲矣X(jué)得我們還沒(méi)有完全發(fā)揮出 Transformer 的潛力。

從本質(zhì)上講， Transformer 是通過(guò)輸入和輸出 token 來(lái)工作的。最終， token 的質(zhì)量決定了這些大型 Transformer 模型的質(zhì)量。

對(duì)于機(jī)器人來(lái)說(shuō)，正如我提到的，數(shù)據(jù)策略非常復(fù)雜。我們既有互聯(lián)網(wǎng)數(shù)據(jù)，也需要模擬數(shù)據(jù)和真實(shí)機(jī)器人數(shù)據(jù)。

一旦我們能夠擴(kuò)展數(shù)據(jù)管道，并獲得高質(zhì)量的動(dòng)作數(shù)據(jù)，我們就可以將這些數(shù)據(jù) token 化，并將其輸入 Transformer 進(jìn)行壓縮。所以我覺(jué)得 Transformer 的潛力還未完全發(fā)揮出來(lái)。

一旦我們解決了數(shù)據(jù)策略問(wèn)題，我們可能會(huì)看到一些隨著數(shù)據(jù)和模型規(guī)模擴(kuò)展而出現(xiàn)的涌現(xiàn)現(xiàn)象。我稱(chēng)之為具身智能的“Scaling Law”，這才剛剛開(kāi)始。

Stephanie Zhan

我對(duì)此非常樂(lè)觀(guān)。很好奇的是，當(dāng)我們到達(dá)那個(gè)突破點(diǎn)時(shí)，你個(gè)人最期待看到的是什么？你認(rèn)為哪個(gè)行業(yè)、應(yīng)用或用例會(huì)完全改變今天的機(jī)器人世界？

Jim Fan

是的。實(shí)際上，我們選擇人形機(jī)器人作為主要研究方向有幾個(gè)原因。一個(gè)原因是，世界是圍繞人體形態(tài)設(shè)計(jì)的，所有的餐館、工廠(chǎng)、醫(yī)院以及我們的設(shè)備和工具都是為人類(lèi)及其手形設(shè)計(jì)的。

因此，原則上，一個(gè)足夠先進(jìn)的人形機(jī)器人硬件應(yīng)該能夠完成任何一個(gè)普通人類(lèi)可以完成的任務(wù)。

雖然當(dāng)前的人形機(jī)器人硬件還沒(méi)有達(dá)到那個(gè)水平，但我相信在未來(lái)兩到三年內(nèi)，人形機(jī)器人硬件生態(tài)系統(tǒng)將會(huì)成熟。

屆時(shí)，我們將擁有可負(fù)擔(dān)得起的人形機(jī)器人硬件，問(wèn)題將變成如何為這些人形機(jī)器人提供 AI 大腦。

一旦我們擁有了能夠接受任何語(yǔ)言指令并完成任何人類(lèi)能做的任務(wù)的通用基礎(chǔ)模型，我們就可以釋放大量經(jīng)濟(jì)價(jià)值。比如我們可以在家庭中擁有機(jī)器人，幫助我們做家務(wù)、洗衣、洗碗、做飯，或者照顧老人。

我們還可以在餐館、醫(yī)院、工廠(chǎng)中使用它們，幫助完成各種人類(lèi)的工作。我希望這能在未來(lái)十年內(nèi)實(shí)現(xiàn)。

不過(guò)正如我之前提到的，這不僅僅是技術(shù)問(wèn)題，還涉及許多技術(shù)之外的問(wèn)題，我對(duì)此充滿(mǎn)期待。

Sonya Huang

你們選擇專(zhuān)注于人形機(jī)器人還有其他原因嗎？

Jim Fan

是的。還有一些更實(shí)際的原因，比如訓(xùn)練管道方面。關(guān)于人類(lèi)的數(shù)據(jù)在網(wǎng)上有很多，視頻中的內(nèi)容大多是以人為中心的，人類(lèi)在執(zhí)行日常任務(wù)或娛樂(lè)活動(dòng)。

人形機(jī)器人的外形最接近人類(lèi)的形態(tài)，這意味著我們用這些數(shù)據(jù)訓(xùn)練的模型可以更容易地遷移到人形機(jī)器人形態(tài)，而不是其他形態(tài)。

比如說(shuō)，關(guān)于機(jī)器人手臂和夾爪的視頻有多少？很少見(jiàn)吧。但我們能看到很多關(guān)于人類(lèi)用五指手工作的視頻。

因此，訓(xùn)練人形機(jī)器人可能更容易。一旦我們擁有了這些基礎(chǔ)模型，我們可以進(jìn)一步專(zhuān)門(mén)化它們，應(yīng)用到機(jī)器人手臂等更具體的機(jī)器人形態(tài)上。這就是為什么我們首先追求全面的解決方案。

Stephanie Zhan

你們目前只專(zhuān)注于人形機(jī)器人嗎，還是也會(huì)涉及機(jī)器人手臂或機(jī)器狗？

Jim Fan

Project Groot 目前主要專(zhuān)注于人形機(jī)器人。但我們構(gòu)建的管道，包括模擬工具和真實(shí)機(jī)器人工具，足夠通用，將來(lái)也可以適應(yīng)其他平臺(tái)。因此，我們正在構(gòu)建這些工具，以便廣泛適用。

Sonya Huang

你多次提到“通用”這個(gè)詞。我認(rèn)為機(jī)器人領(lǐng)域的一些人認(rèn)為通用方法行不通，必須針對(duì)特定領(lǐng)域和環(huán)境。為什么你們選擇了通用的方法？我們節(jié)目里經(jīng)常提到Richard Sutton的“苦澀教訓(xùn)”。你認(rèn)為這在機(jī)器人領(lǐng)域也適用嗎？

Jim Fan

絕對(duì)適用。我想首先談?wù)勎覀冊(cè)谧匀徽Z(yǔ)言處理（ NLP ）領(lǐng)域看到的成功案例。在ChaggbT和 GPT-3 出現(xiàn)之前， NLP 領(lǐng)域有很多專(zhuān)門(mén)針對(duì)不同應(yīng)用的模型和管道，比如翻譯、編程、數(shù)學(xué)運(yùn)算和創(chuàng)意寫(xiě)作，它們都使用了不同的模型和訓(xùn)練管道。但ChaggbT出現(xiàn)后，將所有這些應(yīng)用統(tǒng)一到了一個(gè)單一的模型中。

我們稱(chēng)這些為“通才”模型。而一旦有了通才模型，我們就可以通過(guò)提示、精煉等方式將它們專(zhuān)用于具體任務(wù)，形成“專(zhuān)才”模型。

根據(jù)歷史趨勢(shì)，幾乎總是專(zhuān)才通才模型比原始的專(zhuān)才模型要強(qiáng)大得多，而且維護(hù)起來(lái)更簡(jiǎn)單，因?yàn)橹挥幸粋€(gè) API ，它輸入文本，輸出文本。因此，我認(rèn)為我們可以遵循 NLP 領(lǐng)域的成功路徑，這在機(jī)器人領(lǐng)域也將如此。

到 2024 年，大多數(shù)機(jī)器人應(yīng)用仍處于專(zhuān)才階段，即針對(duì)特定任務(wù)、特定硬件、特定數(shù)據(jù)管道的專(zhuān)門(mén)模型。

但 Project Groot 的目標(biāo)是構(gòu)建一個(gè)通用的基礎(chǔ)模型，首先用于人形機(jī)器人，然后推廣到各種機(jī)器人形態(tài)或具身形式。這就是我們追求的通才時(shí)刻。

一旦我們有了通才模型，我們可以對(duì)其進(jìn)行定制，使其適用于具體的機(jī)器人任務(wù)。而這些將成為專(zhuān)才通才模型的體現(xiàn)。

但在擁有通才模型之前，這一切還不會(huì)發(fā)生。因此，從短期來(lái)看，追求專(zhuān)才模型會(huì)更容易，因?yàn)槟阒恍鑼?zhuān)注于非常狹窄的任務(wù)領(lǐng)域。

但我們?cè)?Nvidia 相信未來(lái)屬于通才模型，盡管它需要更長(zhǎng)的開(kāi)發(fā)時(shí)間，也有更多的研究難題要解決，但這是我們首先追求的目標(biāo)。

Stephanie Zhan

Nvidia 構(gòu)建 Project Groot 的另一個(gè)有趣之處在于，正如你之前提到的， Nvidia 既擁有芯片也擁有模型。你認(rèn)為 Nvidia 可以做些什么來(lái)在自家芯片上優(yōu)化Groot模型？

Jim Fan

是的，在今年 3 月的 GTC 大會(huì)上，Jensen還發(fā)布了下一代邊緣計(jì)算芯片，稱(chēng)為Jensen Source芯片，它實(shí)際上是與Project Groot一起發(fā)布的。

我們的想法是，向客戶(hù)提供一個(gè)從芯片級(jí)別（Jensen Source系列芯片）到基礎(chǔ)模型（Project Groot），再到模擬工具和沿途開(kāi)發(fā)的其他實(shí)用工具的完整技術(shù)棧。這將成為一個(gè)面向人形機(jī)器人以及智能機(jī)器人的計(jì)算平臺(tái)。

我想引用 Jensen 的一句名言，這是我最喜歡的之一：“所有能夠移動(dòng)的東西最終都會(huì)實(shí)現(xiàn)自主化?！蔽乙蚕嘈胚@一點(diǎn)。

雖然現(xiàn)在還沒(méi)有實(shí)現(xiàn)，但我們可以預(yù)見(jiàn)，在未來(lái)十年或更長(zhǎng)時(shí)間內(nèi)，如果我們相信將來(lái)會(huì)有和 iPhone 一樣多的智能機(jī)器人，我們最好從今天開(kāi)始建設(shè)。

Sonya Huang

太棒了！你們的研究目前是否有特別值得強(qiáng)調(diào)的成果？有什么讓你對(duì)你們的方法充滿(mǎn)信心或樂(lè)觀(guān)的嗎？

Jim Fan

是的，我們可以談?wù)勔恍┲暗墓ぷ?。其中我非常滿(mǎn)意的一項(xiàng)工作叫做URAC。我們?cè)谶@個(gè)項(xiàng)目中做了一個(gè)演示，訓(xùn)練一個(gè)五指機(jī)器人手進(jìn)行轉(zhuǎn)筆的動(dòng)作。

對(duì)我個(gè)人來(lái)說(shuō)，這特別幽默，因?yàn)槲乙呀?jīng)放棄了轉(zhuǎn)筆這個(gè)技能。所以我自己做不到，但機(jī)器人手卻可以。而我們用來(lái)訓(xùn)練它的方法是，我們使用 LLM 來(lái)編寫(xiě)代碼，控制由 Nvidia 構(gòu)建的模擬 API ，稱(chēng)為 i6M API 。LLM 輸出代碼來(lái)定義獎(jiǎng)勵(lì)函數(shù)。

獎(jiǎng)勵(lì)函數(shù)基本上就是我們希望機(jī)器人完成的理想行為的規(guī)范。如果機(jī)器人走在正確的軌道上，它就會(huì)獲得獎(jiǎng)勵(lì)；如果做錯(cuò)了事，就會(huì)受到懲罰。

通常，獎(jiǎng)勵(lì)函數(shù)是由一個(gè)非常了解 API 的機(jī)器人專(zhuān)家設(shè)計(jì)的，這是一個(gè)需要高度專(zhuān)業(yè)知識(shí)的工作，而且過(guò)程非常繁瑣和手動(dòng)。

我們開(kāi)發(fā)了一種算法，使用 LLM 來(lái)自動(dòng)化獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)，讓機(jī)器人能夠完成復(fù)雜的任務(wù)，比如轉(zhuǎn)筆。

這是一種通用技術(shù)，我們計(jì)劃將其擴(kuò)展到不僅僅是轉(zhuǎn)筆，它應(yīng)該能夠?yàn)楦鞣N任務(wù)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)，甚至可以通過(guò) Nvidia 的模擬 API 生成新的任務(wù)。這為我們的進(jìn)一步發(fā)展提供了廣闊的空間。

Sonya Huang

我記得五年前有一些研究團(tuán)隊(duì)在解決魔方問(wèn)題，用機(jī)器人手來(lái)完成，當(dāng)時(shí)感覺(jué)機(jī)器人領(lǐng)域經(jīng)歷了一個(gè)“幻滅期”。而在過(guò)去一年左右，這個(gè)領(lǐng)域似乎又熱起來(lái)了。

你認(rèn)為為什么現(xiàn)在是機(jī)器人領(lǐng)域的“時(shí)機(jī)”？有什么不同的地方嗎？我們聽(tīng)說(shuō) OpenAI 也在重新進(jìn)入機(jī)器人領(lǐng)域，大家都在加大努力。你覺(jué)得有什么變化嗎？

Jim Fan

是的，我認(rèn)為現(xiàn)在有幾個(gè)關(guān)鍵因素與之前不同。首先是機(jī)器人硬件。從去年年底開(kāi)始，我們看到了機(jī)器人硬件生態(tài)系統(tǒng)的激增。

像特斯拉在開(kāi)發(fā) Optimus，波士頓動(dòng)力（Boston Dynamics）等，還有很多初創(chuàng)公司。我們看到硬件越來(lái)越強(qiáng)大，具有更好的靈活手和全身可靠性。第二個(gè)因素是價(jià)格下降。

我們看到人形機(jī)器人的制造成本顯著下降。比如 2001 年，NASA 開(kāi)發(fā)了一個(gè)人形機(jī)器人，叫做 Robonaut，如果我沒(méi)記錯(cuò)的話(huà)，每個(gè)機(jī)器人成本超過(guò) 150 萬(wàn)美元。

最近一些公司能夠?qū)⑷δ苋诵螜C(jī)器人的價(jià)格定在大約 3 萬(wàn)美元左右，大致相當(dāng)于一輛車(chē)的價(jià)格。

而且隨著產(chǎn)品的成熟，它的價(jià)格通常會(huì)趨向于原材料成本。對(duì)于人形機(jī)器人，原材料成本通常只有汽車(chē)的4%左右。

所以未來(lái)幾年，我們可能會(huì)看到成本急劇下降。這使得這些硬件越來(lái)越負(fù)擔(dān)得起，這是人形機(jī)器人再次獲得動(dòng)能的第二個(gè)因素。

第三個(gè)因素是在基礎(chǔ)模型方面。我們看到 LLM （如GPT、Claude、Llama等）在解決推理和規(guī)劃問(wèn)題方面表現(xiàn)得非常出色。這些模型能夠很好地泛化，能夠編寫(xiě)代碼。

我們提到的 URAC 項(xiàng)目正是利用了這些語(yǔ)言模型的編程能力來(lái)開(kāi)發(fā)新的機(jī)器人解決方案。還有多模態(tài)模型的興起，提升了計(jì)算機(jī)視覺(jué)和感知能力。

我認(rèn)為這些成功也鼓勵(lì)我們追求機(jī)器人基礎(chǔ)模型，因?yàn)槲覀兛梢岳眠@些前沿模型的泛化能力，并在其上添加動(dòng)作層，生成最終驅(qū)動(dòng)人形機(jī)器人的動(dòng)作 token 。

Stephanie Zhan

我完全理解這一切。你提到的很多研究進(jìn)展，許多是你自己在Centauril等項(xiàng)目中做出的貢獻(xiàn)，再加上 Nvidia 的工具（如IZX等）極大地加速了該領(lǐng)域的進(jìn)展，尤其是在傳感和更便宜的傳感設(shè)備等方面。所以我覺(jué)得現(xiàn)在是從事這個(gè)領(lǐng)域工作的非常激動(dòng)人心的時(shí)刻。

Jim Fan

是的，我同意。

Sonya Huang

我記得你最初的研究更多是在虛擬世界領(lǐng)域。你能不能談?wù)勈鞘裁醋屇銓?duì) Minecraft 和機(jī)器人產(chǎn)生了興趣？在你看來(lái)，它們是否是相關(guān)的？是什么讓你對(duì)虛擬世界產(chǎn)生了興趣？

Jim Fan

這是個(gè)好問(wèn)題。對(duì)我來(lái)說(shuō)，我的個(gè)人使命是解決具身智能問(wèn)題，而虛擬世界中的具身智能智能體就是像游戲和模擬中的那些智能體。因此我對(duì)游戲也有非常特別的情感。我自己也很喜歡玩游戲。

Stephanie Zhan

你玩什么游戲？

Jim Fan

我玩 Minecraft ，我試過(guò)，但我并不是一個(gè)非常好的玩家。所以我希望我的 AI 能彌補(bǔ)我糟糕的游戲技巧。我之前參與了幾個(gè)游戲項(xiàng)目。第一個(gè)是叫做Mind Dojo的項(xiàng)目，我們?cè)?Minecraft 游戲中開(kāi)發(fā)了一種通用智能體平臺(tái)。

對(duì)于不熟悉的觀(guān)眾來(lái)說(shuō)， Minecraft 是一個(gè)開(kāi)放的體素世界，你可以在其中做任何你想做的事情。你可以制作各種工具，冒險(xiǎn)，它是一個(gè)開(kāi)放式游戲，沒(méi)有特定的得分目標(biāo)，也沒(méi)有固定的劇情。

我們從互聯(lián)網(wǎng)上收集了大量數(shù)據(jù)，有人玩 Minecraft 的視頻，也有解釋游戲機(jī)制的wiki頁(yè)面，這些是多模態(tài)文檔，還有像 Reddit 的 Minecraft 子論壇，那里有很多人用自然語(yǔ)言討論游戲。

我們收集了這些多模態(tài)數(shù)據(jù)集，訓(xùn)練模型來(lái)玩 Minecraft 。這個(gè)項(xiàng)目叫做 Mind Dojo。后來(lái)第二個(gè)項(xiàng)目叫做 Voyager 。這個(gè)想法是在 GPT-4 發(fā)布后產(chǎn)生的，因?yàn)樗钱?dāng)時(shí)最好的編程模型。

于是我們想，如果我們將編程作為行動(dòng)呢？基于這個(gè)想法，我們開(kāi)發(fā)了 Voyager 智能體，它通過(guò)編寫(xiě)代碼與 Minecraft 世界互動(dòng)。

我們使用一個(gè) API 將 3D 的 Minecraft 世界轉(zhuǎn)換為文本表示，然后讓智能體使用行動(dòng) API 編寫(xiě)代碼。就像人類(lèi)開(kāi)發(fā)者一樣，智能體并不總是能在第一次寫(xiě)出正確的代碼。

所以我們給它一個(gè)自我反思循環(huán)，如果它在 Minecraft 世界中遇到錯(cuò)誤或做錯(cuò)了事，它會(huì)收到反饋并修正它的程序。一旦它寫(xiě)出了正確的程序，我們稱(chēng)之為技能，它會(huì)將其保存到一個(gè)技能庫(kù)中。

以后當(dāng)智能體遇到類(lèi)似的情況時(shí)，它不需要再次經(jīng)歷試錯(cuò)過(guò)程，可以直接從技能庫(kù)中調(diào)用技能。

你可以將這個(gè)技能庫(kù)視為一個(gè)代碼庫(kù)，它是由 Voyager 自己互動(dòng)地構(gòu)建的，完全沒(méi)有人類(lèi)干預(yù)。整個(gè)代碼庫(kù)都是 Voyager 自己開(kāi)發(fā)的。

這是第二個(gè)機(jī)制，技能庫(kù)。第三個(gè)機(jī)制是我們稱(chēng)之為自動(dòng)課程生成。智能體知道它知道什么，也知道它不知道什么。

因此它能夠提出下一個(gè)任務(wù)，這個(gè)任務(wù)既不會(huì)太難也不會(huì)太簡(jiǎn)單，然后它能夠沿著這條路徑發(fā)現(xiàn)各種技能、工具，并在 Minecraft 的廣闊世界中旅行。

因?yàn)樗眯械煤芏?，所以我們稱(chēng)之為 Voyager 。所以這就是我們團(tuán)隊(duì)最早構(gòu)建具身智能體與虛擬世界交互的嘗試之一。

Sonya Huang

談?wù)勀銊偛盘岬降恼n程生成機(jī)制，我覺(jué)得這非常有趣，因?yàn)檫@似乎是推理和 LLM 世界中尚未完全解決的問(wèn)題之一。

如何讓這些模型自我意識(shí)到下一步該做什么以提高自己？你能否再詳細(xì)談?wù)勀銈冊(cè)谡n程生成和推理方面的構(gòu)建？

Jim Fan

當(dāng)然。我認(rèn)為這些前沿模型展示了一種非常有趣的涌現(xiàn)特性，它們能夠反思自己的行為，并且它們似乎知道自己掌握了什么、還不知道什么，能夠據(jù)此提出任務(wù)。

在 Voyager 中，我們給智能體設(shè)定了一個(gè)高層指令，那就是盡可能多地發(fā)現(xiàn)新的物品。

我們只給了這個(gè)一句話(huà)的目標(biāo)，沒(méi)給出任何關(guān)于先發(fā)現(xiàn)哪些物品、先解鎖哪些工具的指令。

智能體通過(guò)編碼、提示和技能庫(kù)自己發(fā)現(xiàn)了這些。這種系統(tǒng)的工作方式非常驚人，我認(rèn)為這是一種在擁有強(qiáng)大推理引擎后自然涌現(xiàn)的特性。

Sonya Huang

你認(rèn)為為什么這么多的虛擬世界研究都集中在虛擬世界？我相信不僅僅是因?yàn)樵S多深度學(xué)習(xí)研究人員喜歡玩電子游戲，雖然這可能也有點(diǎn)幫助。你覺(jué)得在虛擬世界中解決問(wèn)題與物理世界中的問(wèn)題有什么聯(lián)系？?jī)烧呷绾蜗嗷ビ绊懀?/p>

Jim Fan

是的，我一直認(rèn)為游戲和機(jī)器人之間有很多相似的原則。對(duì)于具身智能體來(lái)說(shuō)，它們的輸入是感知信息，比如視頻流和一些感官輸入，輸出則是行動(dòng)。

在游戲中，這可能是鍵盤(pán)和鼠標(biāo)的動(dòng)作，而在機(jī)器人中則是低級(jí)別的運(yùn)動(dòng)控制。所以從 API 的角度看，這兩者是相似的。

這些智能體需要探索世界，某種程度上需要自己收集數(shù)據(jù)，這就是我們所謂的強(qiáng)化學(xué)習(xí)和自我探索，而這一原則在物理智能體和虛擬智能體中都是共享的。但不同之處在于，機(jī)器人技術(shù)更難，因?yàn)槟阈枰缭侥M與現(xiàn)實(shí)的差距。

在模擬中，物理和渲染永遠(yuǎn)無(wú)法完美，所以將模擬中學(xué)到的東西轉(zhuǎn)移到現(xiàn)實(shí)世界是一大挑戰(zhàn)，這是一個(gè)開(kāi)放的研究問(wèn)題。

因此，機(jī)器人技術(shù)有一個(gè)“模擬與現(xiàn)實(shí)差距”問(wèn)題，而游戲則沒(méi)有。你是在同一個(gè)環(huán)境中訓(xùn)練和測(cè)試。因此，這是它們之間的區(qū)別之一。

去年我提出了一個(gè)概念，叫做基礎(chǔ)智能體（Foundation Agent），我相信最終我們會(huì)擁有一個(gè)可以同時(shí)應(yīng)用于虛擬和物理智能體的模型。

基礎(chǔ)智能體將能夠在三個(gè)方面實(shí)現(xiàn)泛化：第一是它能夠執(zhí)行的技能，第二是它能夠控制的具身形態(tài)，第三是它能夠掌握的世界，無(wú)論是虛擬世界還是現(xiàn)實(shí)世界。這就是我們GER團(tuán)隊(duì)想要追求的終極愿景，基礎(chǔ)智能體。

Stephanie Zhan

談到虛擬世界和游戲領(lǐng)域，你已經(jīng)在開(kāi)放環(huán)境中解鎖了一些推理和涌現(xiàn)行為。在游戲世界里，你個(gè)人的夢(mèng)想是什么？你希望 AI 智能體在游戲領(lǐng)域帶來(lái)怎樣的創(chuàng)新？

Jim Fan

是的，我對(duì)兩個(gè)方面特別興奮。首先是游戲中的智能體?，F(xiàn)在的 NPC （非玩家角色）有固定的腳本，都是手動(dòng)編寫(xiě)的。但如果我們有真正“活著”的 NPC 呢？

他們能夠記住你之前告訴他們的事情，并且可以在游戲世界中采取行動(dòng)，改變游戲的敘事和故事發(fā)展。這是我們還沒(méi)有見(jiàn)到的，但我覺(jué)得這里有巨大的潛力。

這樣一來(lái)，每個(gè)人玩同一個(gè)游戲都會(huì)有不同的體驗(yàn)，甚至一個(gè)人兩次玩同一個(gè)游戲，故事也不一樣，這樣每個(gè)游戲都有無(wú)限的重玩價(jià)值。

第二個(gè)方面是游戲世界本身的生成。我們已經(jīng)看到了許多工具在做這方面的部分工作，比如從文本生成 3D 資產(chǎn)，或者從文本生成視頻的模型，還有能夠生成故事情節(jié)的語(yǔ)言模型。

如果我們把這些工具結(jié)合起來(lái)，那么游戲世界可以在你玩的時(shí)候即時(shí)生成，并與你互動(dòng)。這將是非常令人驚嘆的，也是一個(gè)真正開(kāi)放式的體驗(yàn)。

Stephanie Zhan

特別有趣。關(guān)于智能體的愿景，你覺(jué)得需要 GPT-4 級(jí)別的能力嗎？還是像 Llama 8B 這樣的模型就能實(shí)現(xiàn)？

Jim Fan

我認(rèn)為智能體需要具備幾個(gè)關(guān)鍵能力。首先，它需要能夠進(jìn)行有趣的對(duì)話(huà)，擁有一致的個(gè)性，具備長(zhǎng)期記憶，還要能夠在世界中采取行動(dòng)。

就這些方面而言，目前的 Llama 模型已經(jīng)相當(dāng)不錯(cuò)，但還不足以產(chǎn)生非常多樣化和引人入勝的行為。因此，我認(rèn)為在這方面仍有差距。另一個(gè)問(wèn)題是推理成本。

如果我們想將這些智能體部署給游戲玩家，要么需要非常低的云托管成本，要么能夠在本地設(shè)備上運(yùn)行，否則在成本上是不可擴(kuò)展的。所以這是另一個(gè)需要優(yōu)化的因素。

Sonya Huang

你覺(jué)得在虛擬世界中的所有工作，是否是為了服務(wù)于物理世界的目標(biāo)？還是說(shuō)虛擬世界本身就是一個(gè)足夠有價(jià)值的領(lǐng)域？你如何在物理世界和虛擬世界之間平衡你的工作優(yōu)先級(jí)？

Jim Fan

我認(rèn)為虛擬世界和物理世界最終只是在同一個(gè)軸上的不同現(xiàn)實(shí)。舉個(gè)例子，有一種技術(shù)叫做領(lǐng)域隨機(jī)化，它的工作原理是你在模擬中訓(xùn)練機(jī)器人，但同時(shí)在 1 萬(wàn)個(gè)不同的模擬中并行訓(xùn)練，每個(gè)模擬的物理參數(shù)都不同，比如重力、摩擦力、重量等。這實(shí)際上是 1 萬(wàn)個(gè)不同的世界。

如果我們有一個(gè)智能體能夠掌握所有這 1 萬(wàn)個(gè)不同的現(xiàn)實(shí)配置，那么我們現(xiàn)實(shí)的物理世界就只是第 1 萬(wàn)零一個(gè)模擬。在這種情況下，我們能夠從虛擬世界直接泛化到現(xiàn)實(shí)世界。

這實(shí)際上正是我們?cè)?Eureka 后續(xù)工作中所做的。我們使用各種隨機(jī)化的模擬訓(xùn)練智能體，然后無(wú)需進(jìn)一步微調(diào)，就能夠?qū)⑵渲苯愚D(zhuǎn)移到現(xiàn)實(shí)世界。

我相信這種方法是有效的。如果我們有各種虛擬世界（包括游戲世界），并且有一個(gè)智能體能夠在所有這些世界中掌握各種技能，那么現(xiàn)實(shí)世界只是更大分布中的一部分。

Stephanie Zhan

你能不能跟大家分享一下 Dr. Eureka 項(xiàng)目？

Jim Fan

當(dāng)然。在 Dr. Eureka 項(xiàng)目中，我們基于 Eureka 的成果，依然使用 LLM 作為機(jī)器人開(kāi)發(fā)者。LLM 會(huì)編寫(xiě)代碼，代碼用于指定模擬參數(shù)，比如領(lǐng)域隨機(jī)化參數(shù)。

經(jīng)過(guò)幾次迭代后，我們?cè)谀M中訓(xùn)練的策略能夠泛化到現(xiàn)實(shí)世界。我們展示的一個(gè)具體例子是，我們讓一個(gè)機(jī)器人狗在瑜伽球上行走，它不僅能夠保持平衡，還能向前行走。

有一個(gè)非常有趣的評(píng)論，有人讓自己的真狗去嘗試這個(gè)任務(wù)，結(jié)果發(fā)現(xiàn)它的狗真的能做到這一點(diǎn)。所以在某種程度上，我們的神經(jīng)網(wǎng)絡(luò)超越了“真狗”的表現(xiàn)。

Sonya Huang

我敢肯定我的狗是做不到的，哈哈。

Jim Fan

是的，人工狗智能（ADI），這是下一本冒險(xiǎn)書(shū)的主題。

Sonya Huang

在虛擬世界領(lǐng)域，最近出現(xiàn)了很多令人難以置信的 3D 和視頻生成模型，許多都是基于 Transformer 的。你覺(jué)得我們是否已經(jīng)達(dá)到了那個(gè)可以憑借這些架構(gòu)實(shí)現(xiàn)理想目標(biāo)的階段？或者你認(rèn)為在模型架構(gòu)方面仍然需要一些突破？

Jim Fan

是的，我認(rèn)為在機(jī)器人基礎(chǔ)模型方面，我們還沒(méi)有充分發(fā)揮 Transformer 架構(gòu)的極限。當(dāng)前更大的瓶頸是數(shù)據(jù)問(wèn)題。

正如我之前提到的，我們無(wú)法從互聯(lián)網(wǎng)上下載機(jī)器人控制的數(shù)據(jù)。我們必須在模擬中或通過(guò)真實(shí)機(jī)器人收集這些數(shù)據(jù)。

一旦我們有了成熟的數(shù)據(jù)管道，我們就可以將這些數(shù)據(jù) token 化，然后將它們送入 Transformer 進(jìn)行壓縮，就像 Transformer 預(yù)測(cè) Wikipedia 上的下一個(gè)詞一樣。

我們?nèi)栽隍?yàn)證這些假設(shè)，但我認(rèn)為 Transformer 的極限還未被充分探索。目前也有很多替代 Transformer 架構(gòu)的研究，我對(duì)此非常感興趣。

最近有一種叫做測(cè)試時(shí)訓(xùn)練（test-time training）的架構(gòu)，還有一些其他的替代方案，它們提出了一些非常有前景的想法。雖然這些替代架構(gòu)還沒(méi)有達(dá)到最前沿模型的表現(xiàn)，但我期待看到更多 Transformer 的替代方案出現(xiàn)。

Stephanie Zhan

有沒(méi)有什么特別吸引你注意的模型，為什么？

Jim Fan

是的，我提到了“member”工作和“測(cè)試時(shí)訓(xùn)練”模型，這些模型在不同時(shí)間點(diǎn)表現(xiàn)得更有效率。與 Transformer 模型需要處理所有過(guò)去的 token 不同，這些模型有更高效的內(nèi)在機(jī)制，所以我覺(jué)得它們很有前途。不過(guò)，我們需要將它們擴(kuò)展到前沿模型的規(guī)模，才能真正看到它們與 Transformer 的正面對(duì)比。

Stephanie Zhan

具身智能領(lǐng)域之外，你對(duì) AI 最感興趣的是什么？

Jim Fan

我對(duì)視頻生成特別興奮，因?yàn)槲艺J(rèn)為視頻生成是一種世界模擬器。我們可以從數(shù)據(jù)中學(xué)習(xí)物理和渲染。我們已經(jīng)看到了像 OpenAI 的 Sora 這樣的模型，后來(lái)有很多新模型跟上了 Sora，所以這是一個(gè)正在進(jìn)行的研究話(huà)題。

Sonya Huang

世界模擬器能帶給我們什么？

Jim Fan

我認(rèn)為它能為我們帶來(lái)一個(gè)數(shù)據(jù)驅(qū)動(dòng)的模擬環(huán)境，在其中我們可以訓(xùn)練具身智能，那將會(huì)非常了不起。

Stephanie Zhan

從長(zhǎng)期來(lái)看，你對(duì) AI 最感興趣的是什么？十年或更久以后？

Jim Fan

有幾個(gè)方面。首先是推理方面，我對(duì)能夠編程的模型非常感興趣。我認(rèn)為編程是一個(gè)非?；A(chǔ)的推理任務(wù)，同時(shí)具有巨大的經(jīng)濟(jì)價(jià)值。也許十年后，我們會(huì)有達(dá)到人類(lèi)水平的編程智能體，這將大大加速開(kāi)發(fā)進(jìn)程，使用這些大模型本身。第二個(gè)方面當(dāng)然是機(jī)器人技術(shù)。

我認(rèn)為十年后，我們將擁有像人類(lèi)一樣可靠和敏捷的人形機(jī)器人，甚至可能超越人類(lèi)。我希望到那時(shí)，Project Groot會(huì)取得成功，我們能夠擁有幫助我們?nèi)粘Ｉ畹娜诵螜C(jī)器人。

我只是希望機(jī)器人能幫我洗衣服。這是我的夢(mèng)想。

Sonya Huang

你覺(jué)得哪一年機(jī)器人會(huì)幫我們洗衣服？

Jim Fan

越快越好，我已經(jīng)等不及了。

Sonya Huang

在 AI 領(lǐng)域，誰(shuí)最啟發(fā)你？你曾有機(jī)會(huì)與許多偉大的 AI 人物共事，最早可以追溯到你的實(shí)習(xí)時(shí)期?，F(xiàn)在誰(shuí)對(duì)你影響最大？

Jim Fan

我在 AI 領(lǐng)域有太多的英雄。首先，我非常敬佩我的博士導(dǎo)師 Fei-Fei Li。她教會(huì)了我如何培養(yǎng)良好的研究品味。

有時(shí)候，問(wèn)題不是如何解決，而是要確定哪些問(wèn)題值得解決。實(shí)際上，“什么問(wèn)題”比“如何解決問(wèn)題”要難得多。

在博士期間，我在她的指導(dǎo)下轉(zhuǎn)向了具身智能研究，現(xiàn)在回想起來(lái)，這是正確的方向。我相信 AI 智能體的未來(lái)將是具身的，不論是用于機(jī)器人還是虛擬世界。

我也很敬佩 Andrej Karpathy，他是一位偉大的教育家，他寫(xiě)代碼就像寫(xiě)詩(shī)一樣，我非常仰慕他。還有 Jensen Huang，我對(duì)他的敬佩之情溢于言表。他不僅關(guān)心 AI 研究，還非常了解模型的技術(shù)細(xì)節(jié)，這讓我非常佩服。

Stephanie Zhan

談到擁有良好的研究品味，你對(duì)那些在 AI 領(lǐng)域創(chuàng)業(yè)的創(chuàng)始人有何建議？他們?cè)撊绾握业秸_的問(wèn)題去解決？

Jim Fan

我認(rèn)為有一些研究論文現(xiàn)在變得越來(lái)越容易理解，里面有一些非常好的想法，而且越來(lái)越實(shí)用，而不僅僅是理論性的機(jī)器學(xué)習(xí)。因此，我建議大家保持對(duì)最新文獻(xiàn)的關(guān)注，同時(shí)嘗試其他人開(kāi)發(fā)的開(kāi)源工具。比如在 Nvidia ，我們開(kāi)發(fā)了模擬器工具，任何人都可以訪(fǎng)問(wèn)并下載，可以在模擬環(huán)境中試驗(yàn)機(jī)器人，親自實(shí)踐是非常重要的。

Stephanie Zhan

說(shuō)到 Jensen 作為一個(gè)偶像，你認(rèn)為那些在 AI 領(lǐng)域創(chuàng)業(yè)的創(chuàng)始人能從他身上學(xué)到哪些實(shí)用的建議？

Jim Fan

我認(rèn)為是找到正確的方向去努力。例如， Nvidia 押注于人形機(jī)器人，因?yàn)槲覀兿嘈胚@是未來(lái)。還有具身智能，如果我們相信十年后世界上會(huì)有和 iPhone 一樣多的智能機(jī)器人，那么我們最好今天就開(kāi)始努力。

作者：前沿君，公眾號(hào)：前沿在線(xiàn)

本文由 @前沿在線(xiàn) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖由作者提供

該文觀(guān)點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App