Physical Intelligence 創(chuàng)始人:人形機(jī)器人被高估了
在人工智能和機(jī)器人技術(shù)飛速發(fā)展的今天,人形機(jī)器人成為了科技界的熱門話題。然而,Physical Intelligence(PI)的創(chuàng)始人Chelsea Finn卻認(rèn)為,人形機(jī)器人目前被高估了。本文通過與Chelsea Finn的對話,深入探討了機(jī)器人領(lǐng)域的最新進(jìn)展、泛化能力的重要性、數(shù)據(jù)多樣性的關(guān)鍵作用,以及PI公司的發(fā)展方向。
AI Robotics 是我們長期關(guān)注的賽道之一,通用機(jī)器人是 AGI 從數(shù)字世界走向物理世界的重要路徑,而 robot foundation model 要做的就是給機(jī)器人構(gòu)建一個(gè)大腦,從軟件角度實(shí)現(xiàn)機(jī)器人的通用能力。在 AI robotcis 的主題下,Physical Intelligence 是我們最為關(guān)注的公司之一。
PI 被視為是機(jī)器人領(lǐng)域的 OpenAI,是所有機(jī)器人公司中 research 水平和人才密度最高的團(tuán)隊(duì),團(tuán)隊(duì)的核心目標(biāo)是開發(fā)通用機(jī)器人的 foundation model,今年 2 月,PI 開源了通用模型 π0 的代碼和權(quán)重,2 月 26 日,PI 又推出了 Hi Robot,能夠?qū)?π0 等VLA 模型納入一個(gè)分層推理過程。
本篇內(nèi)容是我們對 PI 核心創(chuàng)始人 Chelsea Finn 最新觀點(diǎn)的編譯理解。圍繞 π0 和 Hi Robot,Chelsea Finn 分享了機(jī)器人是如何實(shí)現(xiàn)泛化?她認(rèn)為,數(shù)據(jù)人就是關(guān)鍵中的關(guān)鍵,并且一定要獲取更多樣化的機(jī)器人數(shù)據(jù),而不僅僅只關(guān)注數(shù)據(jù)的質(zhì)量,最終的目標(biāo)是擴(kuò)大真實(shí)機(jī)器人數(shù)據(jù)的規(guī)模。
同時(shí),Chelsea Finn 也理性地認(rèn)為,雖然人形機(jī)器人這個(gè)形態(tài)很酷,但當(dāng)下,人形機(jī)器人被高估了。要實(shí)現(xiàn)機(jī)器人領(lǐng)域的 AGI,物理智能才是核心,未來一定會(huì)有各種各樣的機(jī)器人形態(tài),PI 內(nèi)部將機(jī)器人的 AGI 時(shí)刻定義為“寒武紀(jì)大爆發(fā)”。
?? 目錄 ??
01 Chelsea Finn 機(jī)器研究的開端
02 PI 的研究進(jìn)展和發(fā)展03 機(jī)器人怎么實(shí)現(xiàn) AGI?
04 Hi Robot
05 機(jī)器人需要哪些感官?
06 自動(dòng)駕駛 VS 機(jī)器人領(lǐng)域
07 對訓(xùn)練數(shù)據(jù)和硬件的看法
01. Chelsea Finn 是如何進(jìn)入機(jī)器人領(lǐng)域的?
Elad:你是如何進(jìn)入機(jī)器人領(lǐng)域的,最初是什么吸引了你?
Chelsea Finn:一開始,我對機(jī)器人可能帶來的影響感到非常興奮。與此同時(shí),我也對發(fā)展感知和智能的問題非常著迷,機(jī)器人體現(xiàn)了這一切。有時(shí)候這個(gè)領(lǐng)域涉及到一些有趣的數(shù)學(xué)問題,能讓大腦保持活躍,不斷思考。這些都是從事這個(gè)領(lǐng)域很有趣的地方。
我真正開始認(rèn)真研究機(jī)器人大概是在 10 多年前,當(dāng)時(shí)我剛開始在伯克利攻讀博士。我們當(dāng)時(shí)在做神經(jīng)網(wǎng)絡(luò)控制,試圖訓(xùn)練神經(jīng)網(wǎng)絡(luò),使得圖像像素可以直接映射到機(jī)器人手臂的扭矩。在當(dāng)時(shí),這種方法還不太流行。但如今,這個(gè)方向已經(jīng)取得了巨大進(jìn)展,在機(jī)器人領(lǐng)域受到了更多認(rèn)可,也讓越來越多的人感到興奮。
從那個(gè)時(shí)候開始,我就很清楚,我們可以訓(xùn)練機(jī)器人完成一些很酷的任務(wù)。但真正的挑戰(zhàn)在于,如何讓機(jī)器人在不同環(huán)境、面對不同物體時(shí)都能完成這些任務(wù)。10 年前,我們訓(xùn)練機(jī)器人去擰緊瓶蓋、用鏟子把物體放進(jìn)碗里、精準(zhǔn)地插入物體,或者把衣架掛到衣架桿上。這些任務(wù)本身已經(jīng)很酷了,但讓機(jī)器人在不同環(huán)境、面對不同物體時(shí)都能執(zhí)行這些任務(wù),才是真正的難點(diǎn)。
因此,我一直在思考如何構(gòu)建更廣泛的數(shù)據(jù)集,如何基于這些數(shù)據(jù)集進(jìn)行訓(xùn)練,以及有哪些不同的學(xué)習(xí)方法,比如強(qiáng)化學(xué)習(xí)、視頻預(yù)測、模仿學(xué)習(xí)等。我在博士期間和加入斯坦福之前,曾在 Google Brain 工作了一段時(shí)間。后來,我成為了斯坦福大學(xué)的教授,在那里建立了自己的實(shí)驗(yàn)室,并在這些方向上做了大量研究。
大約一年前,我與合伙人們共同創(chuàng)立了 Physical Intelligence,希望能夠真正實(shí)現(xiàn)我們的愿景。我為此離開了斯坦福大學(xué),但我仍然在斯坦福指導(dǎo)學(xué)生。
02.PI 的研究進(jìn)展和發(fā)展路徑:泛化和開源
Elad:Physical Intelligence 目前的研究方向是什么?
Chelsea Finn:我們的目標(biāo)是構(gòu)建一個(gè)大型神經(jīng)網(wǎng)絡(luò)模型,最終讓它能夠控制任何機(jī)器人,在任何場景下執(zhí)行任何任務(wù)。
我們的愿景與傳統(tǒng)機(jī)器人研究有很大不同。過去,機(jī)器人研究往往是深入專注于某一個(gè)特定的應(yīng)用場景,比如開發(fā)一個(gè)機(jī)器人來執(zhí)行單一任務(wù)。然而,這種方法往往會(huì)讓研究局限在特定應(yīng)用里,一旦機(jī)器人被優(yōu)化到擅長某個(gè)特定任務(wù),就很難再擴(kuò)展到其他任務(wù)。
我們想要解決的是更廣泛的物理智能問題,并且我們是以長期視角來看待這個(gè)問題。我們特別關(guān)注泛化能力和通用機(jī)器人。
與其他機(jī)器人公司不同,我們認(rèn)為充分利用所有可能的數(shù)據(jù)是非常重要的。這不僅限于某一種特定的機(jī)器人數(shù)據(jù),而是要匯總來自各種不同機(jī)器人平臺(tái)的數(shù)據(jù),比如六軸機(jī)器人、七軸機(jī)器人、單臂機(jī)器人、雙臂機(jī)器人等。已經(jīng)有很多證據(jù)表明,不同機(jī)器人之間可以共享大量豐富的信息,能讓數(shù)據(jù)的價(jià)值最大化。
在這種情況下,如果對機(jī)器人硬件進(jìn)行迭代升級,就不需要完全舍棄舊版本的數(shù)據(jù)。在過去,有一個(gè)痛點(diǎn)在于當(dāng)機(jī)器人升級換代時(shí),原本的策略就無法適配,需要重新訓(xùn)練模型,這個(gè)過程既費(fèi)時(shí)又費(fèi)力。而 Physical Intelligence 的目標(biāo)是打造通用機(jī)器人,并開發(fā) foundation models,讓它們成為下一代機(jī)器人在現(xiàn)實(shí)世界中的智能驅(qū)動(dòng)力。
Elad:這在某種程度上與 LLM 有些相似。在 LLM,深度學(xué)習(xí)、Transformer 架構(gòu)以及規(guī)?;?xùn)練的結(jié)合,已經(jīng)證明了可以實(shí)現(xiàn)真正的通用性,并能夠在不同領(lǐng)域之間進(jìn)行不同形式的遷移。你們所采用的架構(gòu)或方法具體是什么?
Chelsea Finn:一開始,我們主要是想擴(kuò)展數(shù)據(jù)收集規(guī)模。與語言領(lǐng)域不同的是,機(jī)器人領(lǐng)域并沒有類似維基百科或者涵蓋機(jī)器人運(yùn)動(dòng)的“互聯(lián)網(wǎng)”可供利用。因此,我們對在真實(shí)環(huán)境下收集真實(shí)機(jī)器人的數(shù)據(jù)感到非常興奮。這種真實(shí)數(shù)據(jù)一直以來都是推動(dòng)機(jī)器學(xué)習(xí)進(jìn)步的重要因素。而一個(gè)關(guān)鍵點(diǎn)是,我們需要自己去收集這些數(shù)據(jù)。這意味著我們需要在物理世界中進(jìn)行機(jī)器人操作。雖然我們也在探索其他擴(kuò)展數(shù)據(jù)的方法,但核心仍然是擴(kuò)大真實(shí)機(jī)器人數(shù)據(jù)的規(guī)模。
去年十月底,我們發(fā)布了一些初步成果,展示了我們在數(shù)據(jù)擴(kuò)展方面的努力,以及如何讓機(jī)器人學(xué)習(xí)非常復(fù)雜的任務(wù),比如折疊衣物、清理桌面、搭建紙板箱等。
目前,我們思考的重點(diǎn)是如何讓機(jī)器人能夠進(jìn)行語言交互,并在不同環(huán)境中具備泛化能力。在去年十月的演示中,我們展示的機(jī)器人是在一個(gè)特定的環(huán)境中訓(xùn)練的,數(shù)據(jù)也是來自那個(gè)環(huán)境。雖然它能夠在一定程度上泛化,例如折疊它以前從未見過的短褲,但這種泛化能力仍然非常有限。
此外,用戶也無法與它進(jìn)行交互,除了訓(xùn)練數(shù)據(jù)中已有的一些基本指令外,無法讓它執(zhí)行新的任務(wù)。因此,我們目前的一個(gè)重要目標(biāo)是讓機(jī)器人能夠處理更多樣化的指令,并適應(yīng)更多不同的環(huán)境。
在架構(gòu)方面,我們采用了 Transformer,并且使用了 pre training 模型,特別是預(yù)訓(xùn)練的 Vision-Language Model,這使我們能夠利用互聯(lián)網(wǎng)中豐富的信息。幾年前,我們有一個(gè)研究結(jié)果表明,如果利用 Vision-Language Model,機(jī)器人可以執(zhí)行訓(xùn)練數(shù)據(jù)中從未包含過的任務(wù),但這些任務(wù)涉及的概念是存在于互聯(lián)網(wǎng)的數(shù)據(jù)中。
一個(gè)著名的例子是,你可以給機(jī)器人展示 Taylor Swift 的照片。雖然機(jī)器人從未在現(xiàn)實(shí)中“見過” Taylor Swift,但由于互聯(lián)網(wǎng)中有大量 Taylor Swift 的圖片,它可以利用這些信息以及 pre training 模型的權(quán)重來實(shí)現(xiàn)知識(shí)遷移,讓機(jī)器人執(zhí)行相應(yīng)的任務(wù)。
因此,我們并不是從零開始,而是依托這些已有的知識(shí)進(jìn)行提升,這對整個(gè)研究有很大的幫助。
Elad:實(shí)現(xiàn)泛化的關(guān)鍵是什么?
Chelsea Finn:我認(rèn)為最重要的一點(diǎn)是獲取更多樣化的機(jī)器人數(shù)據(jù)。比如,在去年十月底的那個(gè)發(fā)布中,我們的數(shù)據(jù)是在三座建筑中收集的。而相比之下,互聯(lián)網(wǎng)上的語言模型和視覺模型所依賴的數(shù)據(jù)來源要廣泛得多,因?yàn)榫W(wǎng)絡(luò)上的圖片是由許多人拍攝的,文本是由許多人撰寫的。因此,我們需要在更多不同的環(huán)境中采集數(shù)據(jù),涉及更多物體、更多任務(wù)。
擴(kuò)展數(shù)據(jù)的多樣性,而不僅僅是數(shù)據(jù)的數(shù)量,這是至關(guān)重要的。我們目前的重點(diǎn)工作之一就是讓我們的機(jī)器人進(jìn)入更多不同的場景,并在這些環(huán)境中采集數(shù)據(jù)。與此同時(shí),這也會(huì)帶來一個(gè)非常有價(jià)值的副產(chǎn)品——我們可以學(xué)習(xí)到如何讓機(jī)器人在各種不同環(huán)境中真正運(yùn)行并發(fā)揮作用。如果我們想要讓機(jī)器人在現(xiàn)實(shí)世界中真正使用,這一點(diǎn)至關(guān)重要。
除此之外,我們也在探索其他方向,比如利用人類的視頻數(shù)據(jù)、從網(wǎng)絡(luò)中獲取數(shù)據(jù)、使用 pre training 模型,并思考推理能力的應(yīng)用,盡管目前更多是一些基礎(chǔ)的推理。
? 比如把一件臟衣服放進(jìn)洗衣籃,機(jī)器人需要能夠識(shí)別衣服和洗衣籃在哪里,以及完成這個(gè)任務(wù)需要執(zhí)行的操作。
? 比如要制作一個(gè)三明治,而用戶對腌黃瓜過敏,那么機(jī)器人應(yīng)該能夠推理出不應(yīng)該在三明治里放腌黃瓜。
總的來說,最重要的仍然是獲取更豐富多樣的機(jī)器人數(shù)據(jù)。
Elad:開源會(huì)是 PI 的長期發(fā)展路徑嗎?
Chelsea Finn:我們一直非常開放,開源是我們有意識(shí)的選擇。我們不僅開源了一些模型的權(quán)重,還發(fā)布了技術(shù)細(xì)節(jié)和論文,甚至還與硬件公司合作,向它們提供機(jī)器人設(shè)計(jì)。
首先,我們認(rèn)為這個(gè)領(lǐng)域還處于起步階段,這些模型在未來 1-3 年內(nèi)會(huì)變得更加強(qiáng)大,機(jī)器人也會(huì)變得更加強(qiáng)大。我們希望支持研究發(fā)展,支持社區(qū),支持機(jī)器人技術(shù),這樣當(dāng)我們最終開發(fā)出通用模型技術(shù)時(shí),整個(gè)世界會(huì)更好地為它做好準(zhǔn)備,屆時(shí)會(huì)有更強(qiáng)大的機(jī)器人能夠利用這些模型,也會(huì)有更多具備相關(guān)專業(yè)知識(shí)的人理解如何使用這些模型。
其次,我們擁有一支非常優(yōu)秀的研究人員和工程師團(tuán)隊(duì),而頂尖的研究人員和工程師更希望加入開放的公司,尤其是研究人員,他們希望自己的研究成果能夠得到認(rèn)可,并且能夠分享和討論他們的想法。吸引最優(yōu)秀的研究人員和工程師是解決機(jī)器人問題的關(guān)鍵。
最后,選擇開源的最大風(fēng)險(xiǎn)在于可能無法成功。我并不擔(dān)心競爭對手,我更擔(dān)心的是最終沒有人能解決機(jī)器人問題。
機(jī)器人技術(shù)非常困難,過去也有很多失敗的案例。與在圖像中識(shí)別物體不同,機(jī)器人操作幾乎沒有容錯(cuò)空間。比如,機(jī)器人與物體的接觸距離非常小的時(shí)候,一點(diǎn)點(diǎn)差距可能就會(huì)對結(jié)果產(chǎn)生巨大影響,會(huì)決定機(jī)器人能否成功操作這個(gè)物體。收集數(shù)據(jù)的挑戰(zhàn)也是如此,任何涉及硬件的事情都很困難。
03.機(jī)器人怎么實(shí)現(xiàn) AGI?
Elad:物理智能會(huì)在哪些領(lǐng)域產(chǎn)生最直接的影響,這些新方法什么時(shí)候能夠真正實(shí)現(xiàn)突破?
Chelsea Finn:Physical Intelligence 非常關(guān)注機(jī)器人的長期問題,而不是某一個(gè)特定的應(yīng)用,專注于單一應(yīng)用可能會(huì)帶來很多失敗的風(fēng)險(xiǎn)。我不確定物理智能的第一個(gè)應(yīng)用場景會(huì)在哪里。
在機(jī)器學(xué)習(xí)領(lǐng)域,有很多成功的應(yīng)用,比如推薦系統(tǒng)、語言模型、圖像檢測等,模型的輸出最終會(huì)被人類使用,人類可以進(jìn)行檢驗(yàn),因?yàn)槿祟愅ǔJ巧瞄L檢驗(yàn)的。很多機(jī)器人非常自然的應(yīng)用場景是機(jī)器人獨(dú)立自主地做某些事情,而不是接收人類給出的指令,比如給定手臂的目標(biāo)位置,之后人類再進(jìn)行檢驗(yàn)。因此,我們需要思考一些新的方法來應(yīng)對允許錯(cuò)誤的場景,或者是人類和機(jī)器人可以合作的場景。
這是一個(gè)大挑戰(zhàn)。Physical Intelligence 一直在嘗試部署這些機(jī)器人技術(shù),我們做的語言交互工作其實(shí)就是受到這個(gè)挑戰(zhàn)的推動(dòng)。人類能夠提供輸入是非常重要的,比如人類希望機(jī)器人如何表現(xiàn)、希望機(jī)器人做什么、希望機(jī)器人如何幫助完成某件事。
Elad:如何看待人形機(jī)器人與非人形機(jī)器人之間的差異?
Chelsea Finn:人形機(jī)器人真的很酷,但有些被高估了。從實(shí)際角度來看,我們現(xiàn)在在數(shù)據(jù)方面確實(shí)有瓶頸。一些人認(rèn)為人形機(jī)器人可能更容易收集數(shù)據(jù),因?yàn)樗鼈兎先祟惖男螒B(tài),可能會(huì)更容易模仿人類。但如果你曾經(jīng)嘗試過遠(yuǎn)程操作人形機(jī)器人,你會(huì)發(fā)現(xiàn)操作人形機(jī)器人比操作一個(gè)靜態(tài)操控器或者一個(gè)帶輪子的移動(dòng)操控器要困難得多。
優(yōu)化數(shù)據(jù)收集非常重要,如果能達(dá)到一個(gè)超過需求的數(shù)據(jù)量程度,那么剩下的就只是研究、計(jì)算和評估的問題了。我們正在優(yōu)化這個(gè)方向,這也是我們目前優(yōu)化的目標(biāo)之一。我們使用便宜的機(jī)器人,使用我們能夠非常輕松地開發(fā)遠(yuǎn)程操作接口的機(jī)器人,這樣就可以快速進(jìn)行遠(yuǎn)程操作,并收集多樣化的大量數(shù)據(jù)。
Elad:怎么看待具身智能模型的開發(fā)與非具身智能模型開發(fā)之間的區(qū)別?
Chelsea Finn:人們低估了運(yùn)動(dòng)控制中所包含的智能。我們能夠像現(xiàn)在這樣使用雙手,是經(jīng)過了多年的進(jìn)化。而有許多動(dòng)物,即便經(jīng)歷了如此長時(shí)間的進(jìn)化,也無法做到這一點(diǎn)。因此,能夠做一些非?;A(chǔ)的事情,比如做一碗麥片或者倒一杯水,實(shí)際上蘊(yùn)含著極大的復(fù)雜性和智能。所以,從某種程度上來說,具身智能或物理智能是智能的核心。
Elad:在過去兩三年里,哪些研究促使人們覺得機(jī)器人到了一個(gè)轉(zhuǎn)折點(diǎn)?
Chelsea Finn:有幾個(gè)因素讓我們覺得這個(gè)領(lǐng)域的進(jìn)展比之前更快了。
第一個(gè)是 SayCan,可以利用語言模型對高層部分進(jìn)行規(guī)劃,再與低層模型結(jié)合,以便讓機(jī)器人完成長時(shí)間的任務(wù)。
第二個(gè)是 RG2,能夠?qū)崿F(xiàn)前文所說的 Taylor Swift 的例子,RG2 能夠?qū)⒋罅康木W(wǎng)頁數(shù)據(jù)集成進(jìn)來,從而提高機(jī)器人的泛化能力。
第三個(gè)是 RT-X,能夠跨不同的機(jī)器人形態(tài)訓(xùn)練模型。重要的是,我們可以將各個(gè)研究實(shí)驗(yàn)室的數(shù)據(jù)整合到一個(gè)通用格式,并在此基礎(chǔ)上進(jìn)行訓(xùn)練。
在訓(xùn)練時(shí),我們發(fā)現(xiàn)可以將一個(gè)模型的 checkpoint 發(fā)送到另一個(gè)實(shí)驗(yàn)室,即使距離很遠(yuǎn),那個(gè)實(shí)驗(yàn)室的研究生也可以在機(jī)器人上運(yùn)行這個(gè) checkpoint,且大多數(shù)情況下,結(jié)果比他們自己在實(shí)驗(yàn)室里單獨(dú)迭代出的模型要好。這是一個(gè)重要的標(biāo)志,說明這些技術(shù)開始真正起作用,通過匯總來自不同機(jī)器人的數(shù)據(jù),的確能夠帶來益處。
checkpoint 是指在模型訓(xùn)練過程中保存模型當(dāng)前狀態(tài)的快照,通常包含模型的權(quán)重、優(yōu)化器的狀態(tài)以及其他訓(xùn)練相關(guān)的參數(shù)。
還有 Aloha 和 Mobile ALOHA,實(shí)現(xiàn)了遠(yuǎn)程操作來訓(xùn)練模型,使機(jī)器人完成相對復(fù)雜的精巧操作任務(wù)。我們還做了一個(gè)后續(xù)的關(guān)于系鞋帶的項(xiàng)目。
當(dāng)我們啟動(dòng) PI 時(shí),也是對其他人發(fā)出了信號——如果專家們真的愿意在這個(gè)領(lǐng)域下注,那也許真的會(huì)有一些變化。
04.Hi Robot 是什么?
Elad:PI 最近推出了分層交互機(jī)器人,即 Hi Robot,這是怎么考慮的?
Chelsea Finn:我們試圖關(guān)注兩個(gè)方面。第一,如果一個(gè)任務(wù)需要較長時(shí)間才能完成,即可能需要花費(fèi)幾分鐘,那么僅依賴單一策略,即從圖像直接輸出動(dòng)作,可能并不高效。比如在制作三明治的過程中,如果策略只是逐步輸出下一個(gè)運(yùn)動(dòng)指令,而不考慮整個(gè)任務(wù)的整體規(guī)劃,那么效果可能不如通過真正推理和規(guī)劃來完成所有步驟來得更好。
第二,我們希望機(jī)器人不僅僅能執(zhí)行基本指令,比如折疊衣服、拿起杯子,而是能夠與人類互動(dòng)。例如人類可以告訴機(jī)器人自己是一個(gè)素食主義者,要求機(jī)器人做一個(gè)三明治,不要加泡菜,或者中途要求機(jī)器人暫停放番茄。處理這些類型的提示、進(jìn)行現(xiàn)場調(diào)整等,和僅僅執(zhí)行基本指令之間有很大的差距。
因此,我們開發(fā)了一個(gè)系統(tǒng),有一個(gè)模型來接收提示并進(jìn)行推理,能夠輸出機(jī)器人應(yīng)該執(zhí)行的下一步,比如告訴機(jī)器人下一步去“拿起番茄”,然后有一個(gè)低層次的模型,將“拿起番茄”作為輸入,輸出下一個(gè)半秒內(nèi)的命令。
這個(gè)項(xiàng)目非常有趣,我們讓機(jī)器人做了一個(gè)三明治,還做了購物和清理桌子。我最初對它感到興奮,是因?yàn)榭吹綑C(jī)器人能夠響應(yīng)不同的提示并完成這些具有挑戰(zhàn)性的任務(wù),而且, 它似乎是一種正確的方法。
05.機(jī)器人需要哪些感官?
Elad:機(jī)器人的傳感器現(xiàn)在處于什么階段?
Chelsea Finn:如果僅僅依靠視覺,甚至僅使用 RGB 圖像,我們已經(jīng)走得很遠(yuǎn)了。我們通常會(huì)有一個(gè)或多個(gè)外部的基礎(chǔ)攝像頭來觀察場景,并且還會(huì)在機(jī)器人的每個(gè)手腕上安裝攝像頭。我們可以通過這些設(shè)備取得很好的效果。
如果我們能給機(jī)器人裝上“皮膚”就更好了,但目前市面上的觸覺傳感器要么不如皮膚那么耐用,要么成本過高,或者分辨率非常低。所以,在硬件方面有很多挑戰(zhàn)。實(shí)際上將 RGB 攝像頭安裝在手腕上非常有幫助,可能能提供與觸覺傳感器相似的很多信息。
Elad:在機(jī)器人領(lǐng)域,需要多少傳感器?哪些是必要的,哪些可能不需要?
Chelsea Finn:比如做三明治,你可能希望機(jī)器人能夠“品嘗”一下三明治,看看是不是好吃,或者至少能聞到味道。我過去曾多次向 Sergey Levine 提出過“嗅覺”這個(gè)觀點(diǎn),因?yàn)樾嵊X確實(shí)有很多好處。
從某種角度來看,傳感器有冗余性是很好的。比如音頻,當(dāng)人類聽到某個(gè)意外的聲音時(shí),實(shí)際上可以在許多情況下提醒你注意到某些事情,盡管你可能已經(jīng)通過其他傳感器看到了某個(gè)物體掉落。這樣的冗余性可以增強(qiáng)系統(tǒng)的魯棒性。
但對我們來說,現(xiàn)在并不是優(yōu)先考慮這些傳感器的時(shí)機(jī),因?yàn)楫?dāng)前的瓶頸并不在于傳感器,而是在數(shù)據(jù)處理,尤其是在架構(gòu)等方面。
目前我們的機(jī)器人策略沒有記憶,機(jī)器人只看當(dāng)前的圖像,甚至無法記住半秒鐘前發(fā)生的事情。所以,我寧愿先在我們的模型中加入記憶功能,而不是添加其他傳感器。在沒有其他傳感器的情況下,我們也能夠?yàn)樵S多應(yīng)用場景開發(fā)出商業(yè)可行的機(jī)器人。
06.類比自動(dòng)駕駛,機(jī)器人和機(jī)器人公司會(huì)如何發(fā)展?
Elad:和自動(dòng)駕駛相比,機(jī)器人未來發(fā)展的時(shí)間線大概是怎么樣的?
Chelsea Finn:我不知道。自動(dòng)駕駛和機(jī)器人技術(shù)各有難易之處。一方面,機(jī)器人更難,因?yàn)槭且粋€(gè)更高維度的空間,即使是靜態(tài)機(jī)器人也有 14 個(gè)維度,每只手臂有 7 個(gè)維度。在很多情況下,需要比自動(dòng)駕駛有更高的精確度。我們也沒有一開始就擁有那么多的數(shù)據(jù)。
另一方面,自動(dòng)駕駛必須解決整個(gè)分布問題,才能讓任何技術(shù)具備可行性,必須能夠處理任何時(shí)間段的交叉路口、各種行人情景以及其他車輛等。而在機(jī)器人技術(shù)中,有很多商業(yè)應(yīng)用場景不需要處理這么大的分布問題,也沒有那么大的安全風(fēng)險(xiǎn),而且自動(dòng)駕駛領(lǐng)域的結(jié)果非常令人鼓舞,尤其是舊金山 Waymo 車輛數(shù)量的增加。
Elad:類比自動(dòng)駕駛的發(fā)展,現(xiàn)在的機(jī)器人公司會(huì)如何發(fā)展?大公司做機(jī)器人是否有優(yōu)勢呢?
Chelsea Finn:最近有很多新玩家進(jìn)入機(jī)器人領(lǐng)域。
10 年前,做自動(dòng)駕駛可能為時(shí)過早,但自那時(shí)以來,深度學(xué)習(xí)取得了很大的進(jìn)展。機(jī)器人領(lǐng)域也是如此,如果是在 10 年前,甚至 5 年前,我覺得也太早,當(dāng)時(shí)的技術(shù)并不成熟,或許現(xiàn)在仍然有些早。
自動(dòng)駕駛的難度已經(jīng)證明了在物理世界中構(gòu)建智能是多么困難。
我非常喜歡初創(chuàng)公司的環(huán)境,我在 Google 遇到過非常困難的事情,比如考慮到代碼安全,帶著機(jī)器人離開校園幾乎是完全不可行的。但如果想收集多樣化的數(shù)據(jù),把機(jī)器人帶出校園是很有價(jià)值的。而在初創(chuàng)公司中,你可以更快地行動(dòng),因?yàn)槟銢]有那些限制和繁瑣的程序。大公司雖然有大量資本,可以支撐得更久,但行動(dòng)會(huì)更慢。
對于初創(chuàng)公司的創(chuàng)始人而言,快速部署、快速學(xué)習(xí)和快速迭代可能是最重要的,而且要盡量去開發(fā),真正讓機(jī)器人走到市場上, 并從中學(xué)習(xí)。
07.對訓(xùn)練數(shù)據(jù)和硬件的看法
Elad:怎么看待將人的觀察數(shù)據(jù)作為機(jī)器人訓(xùn)練集的一部分,這些數(shù)據(jù)可能來自 YouTube,或者是專門錄制的內(nèi)容。
Chelsea Finn:這些數(shù)據(jù)確實(shí)有很大價(jià)值,但僅憑這些數(shù)據(jù)并不能走得太遠(yuǎn)。
例如,你觀看奧運(yùn)游泳運(yùn)動(dòng)員比賽,即使你有運(yùn)動(dòng)員的體力,但運(yùn)動(dòng)員訓(xùn)練自己的肌肉來完成動(dòng)作的經(jīng)驗(yàn)也是至關(guān)重要的。
例如,你試圖學(xué)習(xí)如何打好網(wǎng)球,但僅僅通過觀看專業(yè)選手,是無法學(xué)會(huì)的。
人類在低級別的運(yùn)動(dòng)控制方面已經(jīng)是專家,但機(jī)器人并不是這樣。機(jī)器人實(shí)際上需要從自身的身體經(jīng)驗(yàn)中來學(xué)習(xí)。所以,能夠利用這種數(shù)據(jù)形式,尤其是擴(kuò)展機(jī)器人自己的經(jīng)驗(yàn),是非常有前景的。但要真正取得進(jìn)展,關(guān)鍵還是要有來自機(jī)器人本身的數(shù)據(jù)。
Elad:這些數(shù)據(jù)是你為機(jī)器人生成的通用數(shù)據(jù),還是你讓機(jī)器人模仿某些活動(dòng)?
Chelsea Finn:當(dāng)我們收集數(shù)據(jù)時(shí),機(jī)器人有點(diǎn)像牽線木偶,我們可以記錄機(jī)器人實(shí)際的運(yùn)動(dòng)指令和傳感器數(shù)據(jù),比如攝像頭圖像,這就是機(jī)器人的“經(jīng)驗(yàn)”。
自動(dòng)化經(jīng)驗(yàn)將發(fā)揮巨大作用,就像在語言模型中那樣。得到一個(gè)初步的語言模型后,如果能通過強(qiáng)化學(xué)習(xí)讓機(jī)器人基于自己的經(jīng)驗(yàn)自我啟動(dòng),那將是非常有價(jià)值的。
Elad:哪些數(shù)據(jù)是可泛化的?
Chelsea Finn:數(shù)據(jù)是否可泛化關(guān)鍵在于分布廣度(the breadth of the distribution)。
雖然很難量化或衡量機(jī)器人的經(jīng)驗(yàn)有多廣泛,也沒有辦法將任務(wù)的廣度進(jìn)行分類,比如一個(gè)任務(wù)與另一個(gè)任務(wù)有多大不同,一個(gè)廚房與另一個(gè)廚房有多大差異之類的,但至少可以通過觀察建筑物數(shù)量或場景數(shù)量等因素,粗略了解這種廣度。
Elad:隨著機(jī)器人技術(shù)的發(fā)展,未來機(jī)器人是會(huì)有一個(gè)單一的形式,還是會(huì)有幾個(gè)不同的形式,從而形成一個(gè)豐富的生態(tài)系統(tǒng)?
Chelsea Finn:我的猜測是會(huì)有很多不同的機(jī)器人平臺(tái),各種各樣的機(jī)器人硬件類型會(huì)涌現(xiàn)出來,我和 Sergey Levine 將其稱為“寒武紀(jì)大爆發(fā)”。只要我們擁有可以支持這些不同機(jī)器人的技術(shù)和智能,就像廚房里有各種不同的設(shè)備,各自能做不同的事情,而不是只有一個(gè)設(shè)備能做所有事情。
可以想象一個(gè)這樣的世界:有一種機(jī)器人手臂可以在廚房里做事,它的硬件專門針對廚房工作進(jìn)行了優(yōu)化,并且可能還會(huì)優(yōu)化成對于這個(gè)特定用途而言更便宜,還有其他硬件可能設(shè)計(jì)用于折疊衣物、洗碗等。
Elad:在 The Diamond Age 這本書中,呈現(xiàn)了一種觀點(diǎn):物質(zhì)通過管道進(jìn)入家庭,家庭用 3D 打印機(jī)來制作一切,比如你下載圖紙,然后 3D 打印出物品。還有一些人可能會(huì)修改設(shè)計(jì),選擇性優(yōu)化某些功能來改進(jìn)產(chǎn)品。這樣的未來有可能實(shí)現(xiàn)嗎?
Chelsea Finn:這樣的世界是非??赡艿?。如果針對某個(gè)特定的使用場景來優(yōu)化硬件,是可以制造出更便宜的硬件的。而且這樣的硬件可能也會(huì)更快、效率更高等。但實(shí)際實(shí)現(xiàn)起來是非常困難的。
Elad:預(yù)測未來趨勢確實(shí)非常困難。我之所以認(rèn)為硬件平臺(tái)的數(shù)量會(huì)減少,其中一個(gè)原因就是供應(yīng)鏈問題。大規(guī)模生產(chǎn)硬件組件可以降低成本,因此最終市場上的硬件平臺(tái)可能會(huì)收縮,變成更少但更具規(guī)模效應(yīng)的選擇。
除非某些硬件平臺(tái)在成本上有顯著的優(yōu)勢,否則企業(yè)更傾向于生產(chǎn)更少種類的硬件,因?yàn)檫@樣更容易擴(kuò)展、復(fù)制,并且制造成本更低。從硬件行業(yè)的角度來看,這是一個(gè)常見的邏輯。因此,在“多樣化硬件平臺(tái)”與“規(guī)?;?、低成本生產(chǎn)”之間的權(quán)衡,是一個(gè)值得思考的問題。
Chelsea Finn:我們可能會(huì)有機(jī)器人出現(xiàn)在供應(yīng)鏈中,能夠制造任何想要的定制設(shè)備。
Elad:未來,機(jī)器人將無處不在。
編譯:haozhen 編輯:Siqi
本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】,微信公眾號:【海外獨(dú)角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!




