AI Agent:大模型與場(chǎng)景間的價(jià)值之橋,但不適合當(dāng)純技術(shù)看
什么是“AI Agent”?在文章中,作者提出觀點(diǎn),認(rèn)為“AI Agent是大模型與場(chǎng)景間價(jià)值傳遞的橋梁”。為什么作者會(huì)這么說?如何理解作者說的“系統(tǒng)型超級(jí)應(yīng)用”?一起來看看本文的分析和解讀。
在開源大模型LLaMA 2會(huì)扮演類似Android的角色么?一文中曾經(jīng)提到:大模型落地的方式是系統(tǒng)型超級(jí)應(yīng)用。但系統(tǒng)型超級(jí)應(yīng)用有點(diǎn)像被杜撰出來的一個(gè)詞,所以這次從AI Agent的角度來更加具體的描述下它。
AI Agent非常關(guān)鍵,沒有它我們就無法擴(kuò)展大模型的應(yīng)用邊界,無法擴(kuò)展邊界我們就無法完成大模型的成功商業(yè)化,無法成功商業(yè)化AI可能就會(huì)再虧損十年。人工智能如果僅止于現(xiàn)在看到的內(nèi)容生成等幾項(xiàng)應(yīng)用,就還是單薄的。
能不能把價(jià)值傳遞到更多的場(chǎng)景,核心就看AI Agent,所以我們說AI Agent是大模型與場(chǎng)景間價(jià)值傳遞的橋梁。
一、大模型是甕中之腦
假如把人的腦子放到一個(gè)充滿營養(yǎng)液的罐子里,讓它活下來,那這時(shí)候它可以有一個(gè)超級(jí)真實(shí)的虛幻世界,但卻不再能干涉現(xiàn)實(shí)。這是《黑客帝國》,《源代碼》這類電影很關(guān)鍵的一個(gè)預(yù)設(shè)。
現(xiàn)在的大模型就有點(diǎn)這意思。
它有一定智力并且擁有大量知識(shí),但除了內(nèi)容生成這類通用能力,在別的領(lǐng)域還不清楚它到底能干什么?經(jīng)濟(jì)體系的主要部分是需要干涉現(xiàn)實(shí)的,所以大模型的這種智力優(yōu)勢(shì)就需要一個(gè)管道,讓它流淌出去和各個(gè)領(lǐng)域相結(jié)合,然后才才能真正創(chuàng)造更大的經(jīng)濟(jì)價(jià)值。
而真要和某個(gè)具體領(lǐng)域結(jié)合,孤立的大模型是不夠的,它既不知道這領(lǐng)域過去發(fā)生了什么,也不知道正在發(fā)生什么,甚至不知道自己要服務(wù)的對(duì)象是誰…
大模型內(nèi)置的幾個(gè)常用的功能,相當(dāng)于把領(lǐng)域相關(guān)的部分放到了模型的內(nèi)部,比如內(nèi)容生成,編寫代碼等。問題是現(xiàn)實(shí)世界的主要領(lǐng)域并不是這種孤立場(chǎng)景,而是和現(xiàn)實(shí)要進(jìn)行實(shí)時(shí)結(jié)合,所以根本放不到大模型里面去。
我們可以把日常要處理的場(chǎng)景做個(gè)分類:
一類是孤立的,斷續(xù)的場(chǎng)景。不管什么時(shí)候只要給個(gè)要求,它就給你一個(gè)特定輸出,和時(shí)空內(nèi)其它要素依賴不大,甚至地球毀不毀滅都和這個(gè)任務(wù)完成沒啥關(guān)系,比如:編程、下圍棋、內(nèi)容生成等。這部分其實(shí)很適合大模型內(nèi)置。有點(diǎn)像井打完了,什么時(shí)候用水,打一桶就得了。
一類則是連續(xù)的,和周圍環(huán)境的變化鑲嵌在一起的的場(chǎng)景。這時(shí)候你如果不知道環(huán)境、歷史累積和前置條件,不管你智商怎么樣,你啥都干不了。就好比工廠流水線在生產(chǎn),突然扔一個(gè)博士過去,其實(shí)啥用也不頂。這有點(diǎn)像用水渠給水田灌水,水源通路都得整好,最終才有水。這部分沒法放大模型內(nèi)部。
我們絕大多數(shù)場(chǎng)景,都是后一個(gè),不管是外賣、打車、企業(yè)經(jīng)營等,所以才有個(gè)說法叫世界萬事萬物是普遍關(guān)聯(lián)的。這也是過去的所謂專家系統(tǒng),用用就掛了的核心原因。
甕中之腦解決前一個(gè)場(chǎng)景下的問題相對(duì)容易,最傻的方法就是定期升級(jí)一下,但單獨(dú)的甕中之腦解決不了后一個(gè)場(chǎng)景里的問題。現(xiàn)實(shí)里面,解決不了后一個(gè)問題就解決不了核心場(chǎng)景,解決不了核心場(chǎng)景就很可能再虧10年。
后一種場(chǎng)景的解決與否的關(guān)鍵在于AI Agent,所以我們說AI Agent是大模型與場(chǎng)景間價(jià)值傳遞的橋梁。
二、AI Agent即系統(tǒng)型超級(jí)應(yīng)用
AI Agent概念太新,資料太少,下面這張圖是OpenAI Lilian Wen個(gè)人博客上發(fā)的一張圖,被四處張貼。
就像人工智能這樣的概念也得被反復(fù)打磨才能相對(duì)精準(zhǔn)一點(diǎn)。這圖能說明AI Agent的一些關(guān)鍵點(diǎn),但也有相當(dāng)?shù)恼`導(dǎo)性。Agent的邊界畫窄了,內(nèi)外要素被混雜在一起了。也不適合用Tools來囊括所有外部的工具依賴。對(duì)情境的感知以及據(jù)此的行動(dòng)用工具囊括就混淆了它們的差別。
下面這種總括的圖更容易看出來Agent的角色(和上面LilianWen那個(gè)Agent定義已經(jīng)不一樣的),但卻又錯(cuò)過了關(guān)鍵要素,比如感知和行動(dòng)到底是個(gè)啥。
這類描述再加上AutoGPT這些開源項(xiàng)目提供的各種接口定義,對(duì)于不是做這個(gè)的人很容易就把AI Agent理解成又一項(xiàng)純粹的技術(shù),但其實(shí)并不是。從技術(shù)的角度看真要這類Agent是需要對(duì)領(lǐng)域、對(duì)環(huán)境建模,因此一部分是新技術(shù),但更關(guān)鍵的是從應(yīng)用上看,它要在一個(gè)場(chǎng)景下徹底搞定一個(gè)業(yè)務(wù),它的含義和滴滴、美團(tuán)外賣APP是一樣的。(反映的正好是橋的屬性,兩頭看風(fēng)景是不一樣的)
那我們到底應(yīng)該怎么理解AI Agent和它的特征呢?
第一,可以重用通行定義,基于感知進(jìn)行智能判斷并采取行動(dòng)。(陸奇的大模型世界觀說的也是這個(gè))
Faiza Waseem,What is agent in ai ! Types of agents in artificial intelligence
為達(dá)成這目的需要和IoT、現(xiàn)有各種系統(tǒng)做深度結(jié)合,不可能是Lilian Wen上面那圖里的簡(jiǎn)單工具的概念。而感知范圍大小事實(shí)上也定義了AI Agent的范圍。
比如招聘場(chǎng)景要感知的就是公司最終需求崗位的描述和招聘平臺(tái)上的候選人,行動(dòng)則是要能與候選人溝通,能辦理入職等。
比如中央空調(diào)的場(chǎng)景感知的就是氣候、用量、當(dāng)前溫度等,行動(dòng)則是空調(diào)溫度控制等。
第二,要有價(jià)值序列的初始化。
這不是感知問題,比如什么是對(duì)的,什么是錯(cuò)的,在關(guān)鍵沖突的時(shí)候那個(gè)更重要等,比如還是中央空調(diào)的場(chǎng)景,用電量是不是可以無限飆升,還是說到某個(gè)限度就必須停下來,再比如招聘的時(shí)候?qū)σ粓?chǎng)危機(jī)的看法等。
這不是感知,而是原則,是絕對(duì)必須的輸入,但似乎很少被提及。
第三,三個(gè)核心輸入輸出上都要接受變化。
這是產(chǎn)品化帶來的衍生要求。
感知和行動(dòng)的風(fēng)格肯定要根據(jù)不同的公司要有微調(diào),比如同樣是招聘的Agent,不可能期望用感知、行動(dòng)和價(jià)值序列都固定的產(chǎn)品解決所有公司的問題。這種需求最終必會(huì)導(dǎo)致應(yīng)用商店和標(biāo)準(zhǔn)化的API接口。只有這樣才能把大模型的通用能力投射出來。否則就有點(diǎn)像子彈是圓形,但槍管是方形的,互相耽誤。
第四,算法會(huì)是一組算法的組合。不可能就是大模型,其它模式識(shí)別類的算法估計(jì)一個(gè)也少不了。并且這些算法要集中提供。這就會(huì)導(dǎo)致大模型、其它算法、領(lǐng)域模型、記憶、規(guī)劃能力形成一套新的內(nèi)核。這種內(nèi)核要有通用性,否則一個(gè)是不匹配大模型的通用能力,一個(gè)是你也沒法真的產(chǎn)品化并給人用。
大模型能力已經(jīng)通用化了,再配上通用的結(jié)構(gòu),這種通用能力就能夠徹底發(fā)揮,相當(dāng)于給甕中之腦加了一個(gè)終結(jié)者的身體。
把這些要素都體現(xiàn)出來AI Agent典型結(jié)構(gòu)會(huì)這樣:
這圖是我原創(chuàng),不一定對(duì),轉(zhuǎn)載注明出處。
這是什么呢?
這就是系統(tǒng)型超級(jí)應(yīng)用,所以說AI Agent即系統(tǒng)型超級(jí)應(yīng)用。
它解決具體問題所以是個(gè)應(yīng)用,但具有通用性,而達(dá)成通用性的手段其實(shí)和過去的操作系統(tǒng)非常類似,并且以大模型為根基。
三、那這種Agent會(huì)有幾種?
從西部世界類的元宇宙Agent到具身智能全是Agent。
Agent會(huì)有很多種,但可以細(xì)分。
最基礎(chǔ)的和來的最快的應(yīng)該是純數(shù)字,無場(chǎng)景或者場(chǎng)景極為單薄的AI Agent。
統(tǒng)一用個(gè)詞就是元宇宙型的Agent,谷歌和斯坦福要干的現(xiàn)實(shí)版西部世界就是這類。如果放在游戲里就是元宇宙里的智能NPC。這類Agent最大的建設(shè)性在于給元宇宙注入生氣,最大的破壞性則在于對(duì)上古社區(qū)的影響可能不咋正向,包括抖音。
第二種Agent則要與現(xiàn)實(shí)場(chǎng)景結(jié)合,可能是純粹數(shù)字的,也可能不是。比如招聘、營銷、空調(diào)管理、運(yùn)維狀態(tài)監(jiān)控等。
第三種則是具身機(jī)器人。和上一種的區(qū)別是,這種完全控制自己的一套外設(shè),上一個(gè)則更多的是一種粘合。
這三類都會(huì)解決連續(xù)運(yùn)轉(zhuǎn)場(chǎng)景問題,只不過后兩個(gè)在現(xiàn)實(shí)世界使勁,第一個(gè)在虛擬世界使勁。
上面這個(gè)排序也就是我理解的發(fā)生順序,AI Agent如果有浪潮,那很可能是這么一個(gè)遞進(jìn)次序。
四、大模型和AI Agent的關(guān)系
簡(jiǎn)單形容這就是發(fā)動(dòng)機(jī)和汽車的關(guān)系。
大模型很關(guān)鍵,沒有大模型就不可能打造AI Agent??删拖耠m然沒有發(fā)動(dòng)機(jī)就沒有汽車,但發(fā)動(dòng)機(jī)成本也就占汽車的不到五分之一。
同時(shí),外面很可能需要有一個(gè)專門針對(duì)領(lǐng)域的模型,否則Planning工作沒法做。即使基于記憶和感知,如果這地兒沒有一個(gè)模型和通用大模型進(jìn)行交互而是固定很多規(guī)則,那這次大模型的通用能力就被阻塞了。
所以、垂域大模型,很可能是雙模型結(jié)構(gòu)(多模型)。
雙模型(多模型)結(jié)構(gòu)再加上系統(tǒng)架構(gòu)有可能是未來AI Agent的典型技術(shù)特征。
五、AI Agent的價(jià)值創(chuàng)造機(jī)制和潛在商業(yè)模式
AI Agent的衡量標(biāo)準(zhǔn)不是單維度的技術(shù)指標(biāo),而是綜合場(chǎng)景的覆蓋度和完成度。得能完成下面這類活,AI Agent才真算做好了,不要去參加考試比賽什么的了:
- 給你個(gè)企業(yè)和啟動(dòng)資金么,你能把錢賺回來么?(終極)
- 給你個(gè)機(jī)房,你能夠最優(yōu)化成本來運(yùn)營他么?
- 給你招聘需求,招聘平臺(tái)賬號(hào),你能把人招來入職么?
- 給你個(gè)視頻號(hào),你能夠把它運(yùn)作成個(gè)大號(hào)么?
下面跑遠(yuǎn)一點(diǎn),AI Agent普及后,會(huì)有什么樣的沖擊?
六、Agent化后,會(huì)怎么樣?
很多事會(huì)非常不一樣。
第一這是一個(gè)依賴倒置的世界。現(xiàn)實(shí)更關(guān)鍵,但把手在數(shù)字空間。
第二反身性等數(shù)字類特征會(huì)越來越明顯。
第三現(xiàn)有體系估計(jì)會(huì)無法維持。那時(shí)候有足夠的能力構(gòu)建一種邊際效能更高的體系,但具體什么樣,我們還不知道。從這個(gè)角度確實(shí)需要智能經(jīng)濟(jì)學(xué)。大師們比較嚴(yán)謹(jǐn),估計(jì)不愿意寫,那天我肯定瞎寫一個(gè)。
第三文化會(huì)和現(xiàn)在不一樣。一個(gè)人只解決人和人關(guān)系的社會(huì)和一個(gè)同時(shí)需要考慮人和AI Agent關(guān)系的社會(huì),文化怎么可能一樣!
在這樣的一個(gè)世界里分配會(huì)比生產(chǎn)關(guān)鍵,分配決定了生產(chǎn)的內(nèi)容和生產(chǎn)是否可以持續(xù)。
小結(jié)
AI Agent的話題有趣之處在于:沒有它就又卡住了,人工智能會(huì)再磨嘰很長(zhǎng)時(shí)間。但如果它真的被跨過了,但很多問題就只能回到原點(diǎn),然后單開一條時(shí)間線才能找到答案。
如果非把AI從業(yè)者分層,那一層是干大模型的,相當(dāng)于干發(fā)動(dòng)機(jī)的;一層則是干汽車的,就是干AI Agent的。在過去大部分汽車廠商規(guī)模是比發(fā)動(dòng)機(jī)廠商還大的,這次不知道會(huì)如何。
專欄作家
琢磨事,微信公眾號(hào):琢磨事,人人都是產(chǎn)品經(jīng)理專欄作家。聲智科技副總裁。著有《終極復(fù)制:人工智能將如何推動(dòng)社會(huì)巨變》、《完美軟件開發(fā):方法與邏輯》、《互聯(lián)網(wǎng)+時(shí)代的7個(gè)引爆點(diǎn)》等書。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
沒看懂,和基于大模型能力之上定義的業(yè)務(wù)模型有啥區(qū)別?