DeepMind的新研究:人類最后的自留地失守了?
從周圍環(huán)境中獲取生活經(jīng)驗的本事,某種意義上可以說是人類在AI面前的最后一塊自留地,但現(xiàn)在,這塊自留地似乎也有可能要失守了,最近,DeepMind的研究成果發(fā)現(xiàn),一個從未使用過任何預先收集的人類數(shù)據(jù)的智能體,可以從零開始學習周遭的模擬環(huán)境,并習得人類行為。
AI對人類世界的學習能力,到目前為止仍然停留在語言層面。
喂給大模型語料——最初是維基百科和Reddit,后來擴展到音頻、視覺圖像甚至雷達和熱圖像——后者廣義上說是換了種表達方式的語言。也因此有生成式AI的創(chuàng)業(yè)者認為,一個極度聰明的大語言模型就是那個通往AGI最終答案,多模態(tài)的研究道路只是目前對前者的底氣不足。
我們對未知生命族群的想象力以此為限(如果硅基生命也算的話)。當談起外星生命,沖進腦子里的第一個想法是外星語言,《三體》里三體人的第一次亮相也是關于語言。這是人類文明的操作系統(tǒng),推己及人,語言也會是其他文明的操作系統(tǒng)?!度祟惡喪贰返淖髡哂韧郀枴ず绽诮衲?月公開表達了他對生成式AI的擔憂,掌握了人類語言的AI,已經(jīng)有能力黑進人類的整個文明背后。
但AI對人類語言資源的占領,也是人類目前對AI威脅性的想象極限。換句話說,無法抽象成語言被表達和記錄的東西,AI學不會。而世界處處是秀才遇到兵的故事,讀萬卷書不如行萬里路,從周圍環(huán)境中獲取生活經(jīng)驗的本事,是人類面對AI的靈魂拷問時最后的自留地。
直到DeepMind帶著一篇新的論文出來,說這塊最后的自留地咱說不定也守不住了。
DeepMind高級研究工程師,平時還顧著張羅一些非洲AI技術社群的Avishkar Bhoopchand,和在各種游戲公司做了5年然后去了DeepMind的Bethanie Brownfield領銜的一支18人研究團隊,最近在《自然》雜志上發(fā)表了一篇新的研究成果。
簡單來說,他們在一個3D模擬環(huán)境中,用神經(jīng)網(wǎng)絡結合強化學習訓練出了一個智能體,這個智能體從未使用過任何預先收集的人類數(shù)據(jù),但從零開始學習周遭的模擬環(huán)境,習得了人類行為。
在這場實驗里,AI和“Culture(文化)”這個概念聯(lián)系在一起,這好像是第一次。
廣義上,談及人類的“智力”,可以簡單理解成有效獲取新知識、技能和行為的能力。更實際點說,也就是如何在適當?shù)那榫持型ㄟ^一系列行動以達成目標的能力。比如:
- 如何動用公式和輔助線解一道幾何題。
- 如何把小紅書上看到的一個菜譜變成晚飯餐桌上的一道菜。
- 如何開一家賺錢的公司。
都是智力的體現(xiàn)。
這篇論文里提到的例子更簡單些——如何在一場游覽活動中跟住導游,或者如何跟同事介紹一臺打印機怎樣用。
事實上,我們具備的很多技能都不是一板一眼學來的——比如如何教同事用一臺打印機,反而人類的智力特別依賴于我們從其他人那里高效獲取知識的能力。這種知識被統(tǒng)稱為文化,而從一個個體傳遞知識到另一個個體的過程被稱為文化傳播(cultural transmission)。
文化傳播是一種社會行為,它依賴整個群體實時以高保真度和高回憶率從彼此那里獲取和使用信息,這最終導致了技能、工具和知識的積累和精煉,以及最終形成文明,在個體甚至代際間高度穩(wěn)定發(fā)生的知識轉移。而這整個過程并不是從一套經(jīng)過設計的書籍或視頻課開始的。
當AI研究者在擔心喂給大模型的語料會在5年后枯竭,這首先建立在AI存在一個巨大的能力盲區(qū)的基礎上,也就是直接從環(huán)境中將發(fā)散信息抽象化的能力。
DeepMind在智能體的訓練中引入了GoalCycle3D——一個在 Unity 中構建的3D物理模擬任務空間??催@張圖片可以知道,這個空間存在崎嶇的地形和各種障礙物,而在障礙物和復雜地形之間有著各種顏色的球形目標,按特定循環(huán)順序經(jīng)過目標球體會獲得積極獎勵。
圖源:Nature
DeepMind在這個空間中設置了具有“上帝視角”,如何行動能夠拿到獎勵的紅色方智能體,藍色方智能體則是毫無游戲經(jīng)驗的“被訓練方”。
拿到高分獎勵即被視為一種“文化”。一個完全沒有游戲背景的智能體所具有的文化傳播(CT)值為0,一個完全依賴專家的智能體CT值設為0.75。一個在紅色方在場時完美跟隨,并在紅色方離開后仍能繼續(xù)獲得高分的智能體的,CT值為1。
實驗的結果是,在一個隨機生成的虛構世界中,藍色方智能體依靠強化學習完成對這種”得高分“文化的習得和超越,而這經(jīng)歷了4個不同的訓練階段。
第一階段,藍色方開始熟悉任務,學習表示、運動和探索,但在得分上沒有太大改善。
第二階段,藍色方體有了足夠的經(jīng)驗和失敗嘗試,學會了它的第一個技能:跟隨紅色方。它的CT值最終到達了0.75,表明了一種純粹的跟隨。
第三階段,藍色方記住了紅色方在場時的有獎勵循環(huán),并在紅色方不在場時能夠繼續(xù)解決任務。
最終的第四階段,藍色方能夠獨立于紅色方智能體的引導,以自己的路線來取得更高分數(shù)。這表現(xiàn)在訓練文化傳播度量回落至0——也就是藍色方不跟著紅色方走了——但同時得分繼續(xù)增加。更準確地說,藍色方智能體在這個階段顯示出了一種“實驗”行為,甚至開始使用假設檢驗來推斷正確的循環(huán),而不是參考機器人,也因此,藍色方最終超越了紅色方,更有效地得到了循環(huán)獎勵。
這個以模仿學習開始,然后借助深度強化學習來繼續(xù)進行自我優(yōu)化甚至找到超越被模仿著的更優(yōu)解的實驗,表明AI智能體能夠通過觀察別的智能體的行為來學習并模仿這些行為。而這種從零樣本開始,實時、高保真地獲取和利用信息的能力,也非常接近人類跨代積累和精煉知識的方式。
這項研究被視為向人工通用智能(AGI)邁進的一大步,而如此重要的一步,DeepMind又是在一場游戲里完成的。
DeepMind曾經(jīng)在另一種游戲中用零樣本的方式完成過一次顛覆,只不過那次它顛覆的就是自己。而那個游戲——對,就是圍棋。
2016年3月12日,李世石投子認負。這意味著人類在圍棋這項人類自己創(chuàng)造的計算游戲中一敗涂地,而甚至沒有坐在對面的AlphaGO,在幾個月的時間里完成了16萬局棋譜的訓練。
然后AlphaGO被擊敗了。
擊敗AlphaGO的是AlphaGO Zero——一個從沒有看過任何棋譜,僅從圍棋的基本規(guī)則開始一步步自學而成的AI棋手。那個紀念擊敗李世石的AlphaGO版本被稱作AlphaGO Lee,AlphaGO Zero以100:0的戰(zhàn)績完全擊敗了AlphaGO Lee,而前者那時候僅僅訓練了3天。
那時的AlphaGO Zero如同現(xiàn)在藍色方智能體在GoalCycle3D里所呈現(xiàn)的一樣,沒有無監(jiān)督學習,沒有使用任何人類經(jīng)驗,最終跟上并且擊敗了自己的前輩。
在2016年以實習生身份進入DeepMind的Richard Everett,也是這篇論文的18人之一。玩電子游戲時人類玩家和看似智能的電腦控制玩家之間的互動讓他著迷,也最終引導他進入了人工智能領域。這個關于“AI學習文化傳播“的項目是他在DeepMind最喜歡的項目之一。
“在世界上最大的糖果店里做個孩子”,Richard Everett這樣描述他在DeepMind的工作感覺。而這篇論文的研究,要歸功于來自藝術家、設計師、倫理學家、項目經(jīng)理、QA測試人員以及科學家、軟件工程師、研究工程師之間超過兩年的密切合作。
AlphaGO Zero的成功讓DeepMind在AGI研究中繼續(xù)堅持著深度強化學習的技術路線,這才有了GoalCycle3D里所呈現(xiàn)的一切?,F(xiàn)在這場通往AGI的大型游戲實驗仍在繼續(xù)。X平臺上,Google DeepMind主頁下最新鮮的一條推文是:
“歡迎Gemini?!?/p>
論文地址:
https://www.nature.com/articles/s41467-023-42875-2
作者:油醋
來源公眾號:硅星人Pro(ID:Si-Planet),硅(Si)是創(chuàng)造未來的基礎,歡迎來到這個星球。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅星人 授權發(fā)布,未經(jīng)許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!