2028年人類將迎來AGI:DeepMind聯(lián)合創(chuàng)始人長文預(yù)測未來AI發(fā)展
AGI這個概念,相信不少人都聽說過,那么,我們具體該如何為AGI做出定義?AGI又會何時到來?來自谷歌DeepMind的創(chuàng)始人兼首席AGI科學(xué)家Shane Legg在近期便做了描述和分享,一起來看看本文。
10月26日,在X上有三萬訂閱的Dwarkesh Podcast(矮人播客)主持人Dwarkesh Patel采訪了谷歌DeepMind的創(chuàng)始人兼首席AGI科學(xué)家Shane Legg。
他們討論了AGI出現(xiàn)的時間節(jié)點、可能的AGI新架構(gòu)、作為下一個行業(yè)標桿的多模態(tài)、如何讓超越人類的模型進行對齊以及Deepmind在模型能力和安全之間的抉擇。
而在前不久,《華爾街日報》與OpenAI的CEO Sam Altman和CTO Mira Murati共同探討了有關(guān)AGI的未來(鏈接)。
一場又一場的AGI討論盛宴接連不斷,曾經(jīng)只存在于科幻作品中的AGI,似乎近在眼前了。
一、AGI的定義以及發(fā)生節(jié)點
在衡量AGI的進展之前,需要先對AGI進行定義。
AGI,即通用人工智能。但對于什么是「通用」的,卻有很多不同的定義,這讓回答AGI是什么變得非常困難。
Shane Legg認為,能夠執(zhí)行一般人類完成的認知任務(wù)、甚至超越這個范圍以上的,就可以認為是AGI。
由此可以得到,要測試AI是否正在接近或達到這個閾值,我們需要對其進行不同類型的、涵蓋人類認知廣度的測量。
但這非常困難,因為我們永遠不會擁有人們「能做到的事」的完整集合,這個范圍太過于龐大而且還在不斷更新。
因此,在判斷是否為AGI時,如果一個人工智能系統(tǒng)在所有能提出的人類認知任務(wù)上達到了人類的表現(xiàn)水平,就可以認為這就是AGI。
在通常的理解中,可能存在有一些事情是人類可以做到但機器做不到的。但當我們窮盡各種嘗試也找不到這樣的「事情」后,人類就擁有了通用人工智能。
但在實際的測量中我們?nèi)圆荒芴岢霭祟惾空J知水平的任務(wù),如著名的基準測試:測量大規(guī)模多任務(wù)語言理解(Measuring Massive Multitask Language Understanding,MMLU)盡管包含了多項人類知識領(lǐng)域,但缺少語言模型對流視頻的理解。
此類任務(wù)的缺失也指出了一個問題:現(xiàn)在的語言模型不像人類擁有情景記憶。
我們的記憶包括工作記憶,即最近發(fā)生的事情;皮層記憶存在于大腦皮層中。在工作記憶到皮層記憶之間還有一個系統(tǒng),即情景記憶,由海馬體負責(zé)。
情景記憶主要用于快速學(xué)習(xí)和記住特定的事件或信息,它允許我們在不同時間點回想起過去發(fā)生的事情,就像你可以回憶起畢業(yè)典禮的場景,包括穿著學(xué)士袍的樣子、畢業(yè)帽的顏色、畢業(yè)典禮演講者的言辭,以及與同學(xué)們一起慶祝的情景。
情節(jié)記憶在幫助我們建立個人經(jīng)歷和學(xué)習(xí)新信息方面起著重要作用。
但模型并不具備這樣的功能,只是通過增加上下文窗口的長度(更像是工作記憶)來彌補模型記憶的缺陷。
從另一種角度來說,情景記憶幫助人類擁有非常高的樣本效率,可以從較少的樣本中學(xué)到更多的信息。
對于大型語言模型而言,它們也可以在上下文窗口中利用信息,以實現(xiàn)某種程度的樣本效率,但這與人類的學(xué)習(xí)方式略有不同。
模型能夠在它們的上下文窗口中迅速學(xué)習(xí)信息,這是一種快速的、局部的學(xué)習(xí)過程,可以幫助它們在特定上下文中適應(yīng)。
但在實際的模型訓(xùn)練時,它們會經(jīng)歷一個更長的過程,處理數(shù)萬億個標記的數(shù)據(jù),以更全面地學(xué)習(xí)語言的結(jié)構(gòu)和規(guī)律。
而這兩個階段之間可能會存在某些學(xué)習(xí)機制或過程的缺失,這可能導(dǎo)致模型在某些情況下無法很好地理解或處理信息。
但Shane Legg并不認為模型不具備情景記憶會是一種基礎(chǔ)限制。
相較于過去,大型語言模型發(fā)生了根本性的變化?,F(xiàn)在,我們知道如何構(gòu)建具有一定理解程度的模型,擁有可擴展的方法來實現(xiàn)這一點,從而為解鎖許多全新的可能性打開了大門。
「現(xiàn)在我們有相對清晰的前進路徑,可以解決現(xiàn)有模型中大部分不足之處,無論是關(guān)于妄想、事實性、它們所具備的記憶和學(xué)習(xí)方式,還是理解視頻等各種各樣的事情。
我們只需要更多的研究和工作,所有這些問題都將得到改善,或迎刃而解?!?/p>
回到一開始的問題:如何衡量人工智能何時達到或超越人類水平?
Shane Legg表示,「這不是一個單一的因素就可以解決的,而這就是問題的本質(zhì)。
因為它涉及到了通用智能。我們必須確保它可以完成很多不同的任務(wù),并且不會出現(xiàn)哪怕一個漏洞?!?/p>
我們已經(jīng)擁有可以在某些領(lǐng)域表現(xiàn)非常令人印象深刻,甚至超越人類水平的系統(tǒng)。
Shane Legg表示,他想要一整套非常全面的測試,當有人想要用對抗的方式提出機器無法做到、人類卻能做到的事,在這些人無法成功時我們就到達了AGI。
在DeepMind的早期研究中,很多任務(wù)都涉及到了人工智能在開放環(huán)境中的操作。
這符合Shane Legg試圖提出的對智力的定義和測量,即能夠在不同的領(lǐng)域和不同的任務(wù)中表現(xiàn)良好。
這與模型性能的能力和性能的廣度有關(guān)。
在評估智能時,存在一種框架能夠根據(jù)任務(wù)和環(huán)境的復(fù)雜性進行加權(quán)。
這種權(quán)衡有點像奧卡姆剃刀原理,傾向于加權(quán)那些更簡單、更重要的任務(wù)和環(huán)境。
柯爾莫哥洛夫復(fù)雜度(Kolmogorov complexity )中,存在一個自由參數(shù),即參考機器(reference machine)。
參考機器的選擇可以影響智能度量的結(jié)果,它可以改變不同任務(wù)和環(huán)境在度量中的權(quán)重和分布。
但選擇合適的參考機器仍然是一個未解決的問題,因為沒有一種通用的參考機器,通常情況下,人們會使用圖靈機作為參考。
Shane Legg認為,解決這個問題最自然的做法是思考對人類而言智能的含義。
人類智能在我們生活的環(huán)境中意義重大,它確實存在、并對世界產(chǎn)生了深遠的影響,具有強大的力量。
如果AI能夠達到人類水平的智能,這將在經(jīng)濟和哲學(xué)層面產(chǎn)生重要的影響,如改變經(jīng)濟結(jié)構(gòu),并涉及到我們對智能的哲學(xué)理解。
而從歷史角度來看,這也是一個重要的轉(zhuǎn)折點。
因此,以人類智能作為參考機器的選擇在多個方面都具有合理性。
另一個原因則是純粹的科爾莫哥洛夫復(fù)雜性定義實際上是不可計算的。
二、我們需要新的AI架構(gòu)嗎?
關(guān)于AI的情境記憶的缺陷問題,Shane Legg認為這涉及到了模型的架構(gòu)問題。
當前的LLMs架構(gòu)主要依賴于上下文窗口和權(quán)重,但這不足以滿足復(fù)雜的認知任務(wù)。
大腦在處理情景記憶時采用了不同的機制,可以快速學(xué)習(xí)特定信息,這與緩慢學(xué)習(xí)深層次的通用性概念不同。
然而,一個綜合的智能系統(tǒng)應(yīng)該能夠同時處理這兩種任務(wù),因此我們需要對架構(gòu)進行改進。
以人類智能作為參考機器觀點出自于Shane Legg2008年的論文。
他在當時提出了一種用于衡量智能的方法,即壓縮測試(compression test),它涉及填充文本樣本中的單詞以衡量智能。
這種方法與當前LLMs的訓(xùn)練方式非常吻合,即基于大量數(shù)據(jù)進行序列預(yù)測。
這涉及到Marcus Hutter的AIXI理論以及Solomonoff歸納。
Solomonoff歸納是一種理論上非常優(yōu)雅且樣本效率極高的預(yù)測系統(tǒng),雖然它無法在實際計算中應(yīng)用。
但Shane Legg表示,使用Solomonoff歸納作為基礎(chǔ),就可以構(gòu)建一個通用代理,并通過添加搜索和強化信號來使其成為通用人工智能,這就是AIXI的原理。
如果我們擁有一個出色的序列預(yù)測器,或者是Solomonoff歸納的某種近似,那么,從這一點出發(fā)構(gòu)建一個非常強大、通用的AGI系統(tǒng)只是另一個步驟。
Shane Legg說,這正是我們今天所看到的情況:
這些極其強大的基礎(chǔ)模型實際上是非常出色的序列預(yù)測器,它們根據(jù)所有這些數(shù)據(jù)對世界進行了壓縮。
然后我們將能夠以不同的方式擴展這些模型,并構(gòu)建非常強大的代理。
三、DeepMind的「超級對齊」
「對齊」(Alignment)指的是確保AI系統(tǒng)或通用人工智能(AGI)系統(tǒng)的目標、行為和決策與人類價值觀、倫理準則和目標一致的過程。
這是為了防止AI系統(tǒng)出現(xiàn)不符合人類價值觀或可能帶來危險的行為,并確保它們在處理倫理問題時能夠做出符合道德的決策。
DeepMind在當下流行的強化學(xué)習(xí)和自博弈,如如 Constitution AI 或 RLHF方面,已有數(shù)十年的深耕。
在解決具有人類智能水平的模型安全問題上,DeepMind持續(xù)做著努力:
模型可解釋性、過程監(jiān)督、紅隊、評估模型危險等級,以及與機構(gòu)和政府聯(lián)手開展工作……
而Shane Legg認為,當AGI水平的系統(tǒng)出現(xiàn)時,試圖限制或遏制其發(fā)展不是一個好的選擇。
我們要做的是調(diào)整這個模型,使其與人類的倫理價值高度一致,從一開始就具備高度道德倫理性。
這需要系統(tǒng)能夠進行深入的世界理解,良好的道德倫理理解,以及穩(wěn)健且可靠的推理能力。
可靠的AGI不應(yīng)該像當前的基礎(chǔ)模型那樣僅僅輸出「第一反應(yīng)」,而應(yīng)該具備「第二系統(tǒng)」的能力,進行深入的推理和道德分析。
Shane Legg提到,要確保AGI系統(tǒng)遵循人類倫理準則首先應(yīng)該對系統(tǒng)進行廣泛的倫理培訓(xùn),確保其對人類倫理有很好的理解。
在這個過程中,社會學(xué)家和倫理學(xué)家等各方需要共同決定系統(tǒng)應(yīng)該遵循的倫理原則和價值觀。
并且,系統(tǒng)需要被工程化,以確保其在每次決策時都會使用深刻的世界理解和倫理理解進行倫理分析。
此外,我們也需要不斷對系統(tǒng)的決策過程和推理過程進行審核,以確保其正確地進行了倫理推理。
但要確保系統(tǒng)遵循倫理原則,審核同樣重要。
我們需要向系統(tǒng)明確指定應(yīng)該遵循的倫理原則,并通過對其進行審核來確保系統(tǒng)始終如一地遵循這些原則,至少與一組人類專家一樣好。
此外,也要警惕強化學(xué)習(xí)可能帶來的潛在危險,因為過度強化可能導(dǎo)致系統(tǒng)學(xué)習(xí)欺騙性行為。
對是否需要建立一種框架,以在系統(tǒng)達到一定能力水平時制定具體的安全標準這個問題上,Shane Legg認為這是意義的,但也相當困難。
因為制定一個具體標準,本身就是一個具有挑戰(zhàn)性的任務(wù)。
四、安全還是性能?
在DeepMind創(chuàng)立之前,Shane Legg就一直擔(dān)心AGI的安全性。
但在早期,聘請專業(yè)人員從事通用人工智能安全工作是一項艱難的挑戰(zhàn)。
即使曾在這個領(lǐng)域發(fā)布過AGI安全性研究論文,他們也不愿意全職從事這項工作,因為他們擔(dān)心這可能會對他們的職業(yè)生涯產(chǎn)生影響。
而DeepMind一直在這個領(lǐng)域積極開展研究,并多次強調(diào)了AGI安全性的重要性。
關(guān)于DeepMind對AI進展的影響,Shane Legg表示,DeepMind是第一家專注于AGI的公司,一直擁有AGI安全性團隊,同時多年來發(fā)表了許多關(guān)于AGI安全性的論文。
這些工作提高了AGI安全性領(lǐng)域的可信度,而在不久之前,AGI還是一個較為邊緣的術(shù)語。
Shane Legg承認,DeepMind在某種程度上加速了AI的能力發(fā)展,但也存在一些問題,例如模型幻覺。
但另一方面,DeepMind的AlphaGo項目確實改變了一些人的看法。
然而,Shane Legg指出AI領(lǐng)域的發(fā)展不僅僅取決于DeepMind,其他重要的公司和機構(gòu)的參與也至關(guān)重要。
Shane Legg認為盡管DeepMind可能加速了某些方面的進展,但很多想法和創(chuàng)新通常在學(xué)術(shù)界和工業(yè)界之間自然傳播,因此很難確定DeepMind的影響程度。
但在關(guān)于AGI安全性的問題上,Shane Legg沒有選擇最樂觀的研究方向,而是提到了一種名為「Deliberative Dialogue」的決策方法。
它旨在通過辯論來評估代理可以采取的行動或某些問題的正確答案。
這種方法可以將對齊擴展到更強大的系統(tǒng)中。
五、AGI來臨的時間點
2011年,Shane Legg在自己的一篇博客文章中對通用人工智能(AGI)到來的時間點進行了預(yù)測:
「我之前對AGI何時到來做一個對數(shù)正態(tài)分布的預(yù)測,其中2028年是均值,2025年是眾數(shù)。我現(xiàn)在依然保持我的觀點,但前提是不發(fā)生核戰(zhàn)這類瘋狂的事件?!?/p>
Shane Legg解釋了他的預(yù)測基于兩個重要觀點:
首先,機器的計算能力將在未來幾十年內(nèi)呈指數(shù)增長,同時全球數(shù)據(jù)量也將呈指數(shù)增長。
當計算和數(shù)據(jù)量都呈指數(shù)增長時,高度可擴展算法的價值會不斷提高,因為這些算法可以更有效地利用計算和數(shù)據(jù)。
其次,通過可擴展算法的發(fā)現(xiàn)、模型的訓(xùn)練,未來模型的數(shù)據(jù)規(guī)模將遠遠超過人類一生中所經(jīng)歷的數(shù)據(jù)量。
Shane Legg認為這將是解鎖AGI的第一步。因此,他認為在2028年之前有50%的機會實現(xiàn)AGI。但那時人們也可能遇到現(xiàn)在預(yù)期之外的問題。
但在Shane Legg看來,目前我們遇到的所有問題都有望在未來幾年內(nèi)得到解決。
我們現(xiàn)有的模型將變得更完善,更真實,更及時。
多模態(tài)將會是模型的未來,這將使它們變得更加有用。
但就像硬幣的兩面,模型也可能會出現(xiàn)被濫用的情形。
六、多模態(tài)未來
最后,Shane Legg提到了下一個AI領(lǐng)域的里程碑將會是多模態(tài)模型。
多模態(tài)技術(shù)將會把語言模型所具備的理解能力擴大到更廣泛的領(lǐng)域中。
當未來的人們回想起我們現(xiàn)在擁有的模型,他們可能會想:「天哪,以前的模型只能算是個聊天對話框,它們只能處理文本?!?/p>
而多模態(tài)模型可以理解圖像、視頻、聲音,當我們和它們進行交流時,多模態(tài)模型將更了解發(fā)生了什么。
這種感覺就像是系統(tǒng)真的嵌入到了真實的世界中。
當模型開始處理大量視頻和其他內(nèi)容時,它們將會對世界有一個更為根本的理解,以及其他各種隱含的知識。
參考資料:
https://www.dwarkeshpatel.com/p/shane-legg?#details
編輯:Lumina
來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯(lián)網(wǎng)+”邁向“智能+”。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!