大模型的下一站:AI Agent!
現(xiàn)在各家基本上都有自己的大模型產(chǎn)品,現(xiàn)在的重點(diǎn)都是在找商業(yè)模式,以及擴(kuò)展大模型的應(yīng)用場(chǎng)景上。所以大家做APP、做Copilot也就不足為奇,都是為自己找出路的做法。但從作者的角度,Copilot只是傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用到大模型應(yīng)用的過(guò)渡,AI Agent才是大模型的下一站!
仔細(xì)想想,自從Chat GPT發(fā)布之后,大模型行業(yè)相關(guān)的玩家們其實(shí)一直在忙兩件事:
- 提升基座大模型的能力:主力是國(guó)內(nèi)外的大廠以及創(chuàng)業(yè)新勢(shì)力,從最初的文、圖、視頻等單一模態(tài)到現(xiàn)在的綜合多模態(tài)大模型,這些玩家利用Scaling Law,通過(guò)提升大模型的訓(xùn)練數(shù)據(jù)、訓(xùn)練算力和參數(shù)數(shù)量,以此來(lái)提升模型的性能,看這些市面上多如牛毛的大模型就知道這個(gè)方向成果頗豐。
不過(guò)雖然目前Scaling law還未失效,但其實(shí)已經(jīng)遇到了遞減的回報(bào)—也就是說(shuō),雖然模型性能會(huì)隨資源投入量的增加而改善,但每增加一單位資源帶來(lái)的性能提升會(huì)逐漸減少,何況還有數(shù)據(jù)、算力上限的掣肘,未來(lái)的這個(gè)賽道的激烈程度不言而喻。
2. 探索大模型時(shí)代的Super APP:其實(shí)從 GPT-4 的 Auto GPT、Baby GPT、GPT-Engineer 等開(kāi)源 Agent 開(kāi)始,大家對(duì)于大模型時(shí)代的AI Agent的探索就再也沒(méi)有停歇!對(duì)于廣大的小公司或者普通人而言,基座大模型如何發(fā)展他們參與感不強(qiáng),大家的機(jī)會(huì)或者說(shuō)是關(guān)注點(diǎn)則更傾向于如何將LLMs落地于應(yīng)用。
李彥宏說(shuō):所有應(yīng)用都值得被大模型重構(gòu)一遍,但快兩年了,為什么目前還沒(méi)有看到令人興奮的AI應(yīng)用?我個(gè)人的思考是:大模型的能力不夠強(qiáng)是一方面,但更大的問(wèn)題是大家并沒(méi)有考慮清楚什么是大模型時(shí)代的應(yīng)用?遍歷市場(chǎng)上所謂的大模型應(yīng)用,其實(shí)90%都是Copilot類(lèi)產(chǎn)品,本質(zhì)還是互聯(lián)網(wǎng)應(yīng)用,只是在原始架構(gòu)上簡(jiǎn)單累加或者羅列大模型的能力。
Copilot只是傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用到大模型應(yīng)用的過(guò)渡,AI Agent才是大模型的下一站!
01.Agent的前世今生
1. 1986年到1997年:Software Agent
“Agent“這個(gè)術(shù)語(yǔ)在這個(gè)時(shí)期就已經(jīng)出現(xiàn)了,包括Carl Eddie Hewitt和Michael Wooldridge在內(nèi)的西方學(xué)術(shù)界的杰出計(jì)算機(jī)科學(xué)家們及人工智能研究者,對(duì)這一主題進(jìn)行了深入的探討,并展示了眾多的系統(tǒng)示例及發(fā)表了大量研究論文,探討了Software Agent在各種應(yīng)用場(chǎng)景中的潛力。
可以說(shuō),過(guò)去三十年來(lái),Agent的理念基本保持不變,但由于當(dāng)時(shí)的AI和計(jì)算能力限制,該概念在90年代流行了一段時(shí)間后逐漸淡出視線(xiàn)。
這個(gè)時(shí)期的Agent的概念源自于日常生活中廣泛存在的代理概念。這些日常代理,如旅行代理或房地產(chǎn)代理,代表他人行事且具有一定的自主性,例如房地產(chǎn)代理可在未經(jīng)房主直接同意的情況下,為空置房產(chǎn)安排看房。這些普通代理展示了主動(dòng)性和合作的能力。
根據(jù)當(dāng)時(shí)的計(jì)算機(jī)專(zhuān)家定義,Agent的幾個(gè)關(guān)鍵特征包括:
- 自主性(在無(wú)需人類(lèi)干預(yù)的情況下獨(dú)立運(yùn)作,并控制其行為和內(nèi)部狀態(tài))
- 社交能力(能通過(guò)某種通訊語(yǔ)言與其他代理或人類(lèi)互動(dòng))
- 反應(yīng)能力(能感知并及時(shí)響應(yīng)外部環(huán)境的變化)
- 主動(dòng)性(具備目標(biāo)導(dǎo)向的行為,不僅響應(yīng)環(huán)境,也會(huì)主動(dòng)行動(dòng)以達(dá)成目標(biāo))。
2. 2023年4月至今:AI Agent
GPT-4發(fā)布之后,以AutoGPT、BabyAGI等為代表的一批自主代理(Autonomous Agents)的開(kāi)源內(nèi)容再次引發(fā)了學(xué)術(shù)界和產(chǎn)業(yè)界對(duì)于Agent系統(tǒng)和概念的興趣。其中,學(xué)術(shù)界的參與和熱情更為明顯,目前Github上大約95%的相關(guān)Demo均由全球的科研機(jī)構(gòu)和高校提供。
圖片:斯坦福和谷歌論文《Generative Agents: Interactive Simulacra of Human Behavior》
現(xiàn)階段人們對(duì) AI Agent 的定義和 30 年前當(dāng)時(shí)對(duì) Software Agent 定義變化不大,期望仍然是:在有了目標(biāo)后,獨(dú)立決策并完成任務(wù)的。唯一區(qū)別就是傳統(tǒng)的Software Agent更多是依賴(lài)預(yù)設(shè)的算法或者規(guī)則解決一些簡(jiǎn)單的、流程明確的任務(wù),但是在大模型加入后,Agent對(duì)于目標(biāo)任務(wù)的拆解、規(guī)劃能力更強(qiáng)了。
大語(yǔ)言模型的加入為 Agents 設(shè)計(jì)帶來(lái)了變革,基于大語(yǔ)言模型的 Agent 可以整合更多的工具,同時(shí)多模態(tài)的能力還可以讓Agent感知復(fù)雜和未知的環(huán)境,在決策策略上也更有優(yōu)勢(shì),甚至可以利用一些手段讓 Agent 具備持續(xù)學(xué)習(xí)能力,提高 Agent 處理任務(wù)的多樣性。
簡(jiǎn)單來(lái)說(shuō),我們希望理想的AI Agent是一個(gè)強(qiáng)大的通用問(wèn)題解決方案助手。
02.理想的AI Agent應(yīng)該有哪些組件?
如果把大模型比作大腦前葉,負(fù)責(zé)計(jì)算,那么 Agent 也許更像整個(gè)大腦,有記憶,規(guī)劃,行動(dòng),和使用工具的能力。所以對(duì)比大模型,Agent 更像一個(gè)完整的 App。Agent 時(shí)代的人機(jī)交互就像人與人的交互一樣,更自然,更沉浸,更個(gè)人化。
比如:AutoGPT ,這類(lèi) Autonomous Agent 核心是利用模型 COT 能力讓大模型通過(guò)審視自己上一次調(diào)用工具后輸出結(jié)果,審視自己是否有改進(jìn)的空間,再進(jìn)行下一步規(guī)劃和改進(jìn),以此來(lái)“激發(fā)”大模型的主動(dòng)性。
參考Open AI研究員翁麗蓮、機(jī)器學(xué)習(xí)專(zhuān)家吳恩達(dá)以及多篇關(guān)于Autonomous agents 的文章,這里我給出我理解的理想的AI Agent構(gòu)成。
規(guī)劃(Planning):
- 任務(wù)拆解:Agent能將大任務(wù)分解為更小的、可管理的子目標(biāo),從而有效地處理復(fù)雜任務(wù)。對(duì)于每一個(gè)目標(biāo),評(píng)估使用不同行為方案的可行性,選擇其中期望效果最好的一個(gè)。
- 反思與改進(jìn):Agent可以接受來(lái)自人類(lèi)或者環(huán)境的反饋,并反思?xì)v史的行為,從錯(cuò)誤中吸取教訓(xùn),并將錯(cuò)誤內(nèi)容加入長(zhǎng)期記憶形成人類(lèi)的教訓(xùn),為未來(lái)的步驟進(jìn)行改進(jìn),更新其對(duì)世界的認(rèn)知,從而提高最終結(jié)果的質(zhì)量。
行動(dòng)(Action):
負(fù)責(zé)將Agent的決策轉(zhuǎn)化為特定的輸出。
- 環(huán)境探索和交互:Agent能夠通過(guò)與環(huán)境交互獲取新知識(shí),并通過(guò)總結(jié)最近的經(jīng)驗(yàn)來(lái)增強(qiáng)自己。通過(guò)這種方式可以生成越來(lái)越適應(yīng)環(huán)境且符合常識(shí)的新行為。
- 記憶檢索:Agent根據(jù)存儲(chǔ)在記憶模塊中的經(jīng)驗(yàn)做決定,在采取行動(dòng)時(shí),相關(guān)的記憶片段被檢索作為 LLM 的條件輸入,以確保先前的錯(cuò)誤不會(huì)再犯。
- 工具使用:可以通過(guò)文檔和數(shù)據(jù)集教會(huì) Agent 如何調(diào)用外部工具的 API,來(lái)補(bǔ)足 LLM 自身的弱項(xiàng),甚至可以通過(guò)工具使用完成和硬件的交互。
記憶(Memory):
信息可以用各種格式存儲(chǔ)在記憶中,來(lái)模仿人類(lèi)大腦那樣從過(guò)往的經(jīng)驗(yàn)中學(xué)習(xí)正確的工作模式。
- 短期記憶:這一輪決策所需要用到的所有信息。其中包括上下文內(nèi)容,目前Agent的記憶都是短期的。
- 長(zhǎng)期記憶:這為Agent提供了在較長(zhǎng)時(shí)間內(nèi)保留和回憶(無(wú)限)信息的能力,目前是通過(guò)利用外部向量存儲(chǔ)和快速檢索來(lái)實(shí)現(xiàn)的,未來(lái)可以建設(shè)一個(gè)記憶系統(tǒng),能記憶各種圖、文、向量數(shù)據(jù)信息,包括用戶(hù)用戶(hù)偏好和工作習(xí)慣,以此能做出更智能的決策。
03. 為什么說(shuō)大模型下一站是:AI Agent
1. AI Agent 將成為人類(lèi)新的系統(tǒng)2
在《思考,快與慢》一書(shū)中,人的認(rèn)知過(guò)程被劃分為兩大類(lèi),即系統(tǒng) 1 和系統(tǒng) 2。前者是快速且依賴(lài)直覺(jué)的思考模式,盡管靈活迅速,卻容易犯錯(cuò)。后者則是緩慢而邏輯的思考方式,雖然速度較慢,但結(jié)果往往更為可靠和準(zhǔn)確。
大型語(yǔ)言模型(LLMs)非常適合執(zhí)行類(lèi)似系統(tǒng) 1 的任務(wù),它能迅速處理和回應(yīng)大量信息,類(lèi)似于人們?cè)诼?tīng)到信息后能立刻理解和回答。然而,LLM 有時(shí)會(huì)產(chǎn)生幻覺(jué)效應(yīng),即造出不存在的事實(shí),這種現(xiàn)象與人類(lèi)的直覺(jué)思考中的偏誤和本能響應(yīng)有著相似之處。
而AI Agent的一項(xiàng)重要長(zhǎng)期目標(biāo)是讓LLM能夠擔(dān)任類(lèi)似系統(tǒng) 2 的角色,在深度思考和分析基礎(chǔ)上做出更為復(fù)雜和可信的決策。CoT的研究就是這方面的一個(gè)杰出例子,它通過(guò)提示來(lái)讓大模型模擬人類(lèi)復(fù)雜的推理過(guò)程,以此激發(fā)出LLM更高級(jí)的智能,幫助和輔助人類(lèi)進(jìn)行思考,甚至是幫助人類(lèi)完成行動(dòng)。
2. AI Agent 將低成本為每個(gè)人實(shí)現(xiàn)軟件定制
Andrej Karpathy 曾提出”Software 2.0″的概念,強(qiáng)調(diào)通過(guò)大數(shù)據(jù)和強(qiáng)大的計(jì)算力,可以有效處理此前需要大量人工和高成本才能解決的復(fù)雜問(wèn)題,AI Agent正是將這一觀念具體化的例子。
當(dāng)前,市面上的主流軟件多為用戶(hù)群體大、標(biāo)準(zhǔn)化高的需求所設(shè)計(jì),只有當(dāng)需求量足夠大時(shí),企業(yè)才會(huì)投入資源開(kāi)發(fā)。然而,許多小眾、特異化的需求常常得不到滿(mǎn)足。隨著AI Agent的成熟,軟件開(kāi)發(fā)將實(shí)現(xiàn)成本的大幅降低。使軟件能夠靈活應(yīng)對(duì)人類(lèi)更加多樣化的需求,開(kāi)啟類(lèi)似于“3D打印”的軟件生產(chǎn)新時(shí)代,為用戶(hù)提供更加個(gè)性化的產(chǎn)品選擇。
04.寫(xiě)在最后
短期,我們認(rèn)為文章預(yù)想的Autonomous Agent 落地有些困難,因?yàn)樯厦嬉仓v了是理想狀態(tài)下的AI Agent,這就要求Agent有相當(dāng)強(qiáng)大的自驅(qū)和自動(dòng)化規(guī)劃能力,但是在當(dāng)前的大模型能力加持下,要想實(shí)現(xiàn)這樣的效果,幾乎不太可能。如果是短期的 AI Agent 產(chǎn)品,我們需要給產(chǎn)品的用戶(hù)提供干預(yù)空間,讓Agent輔助用戶(hù)完成任務(wù),保證至少有60%的事情是Agent完成的。
不過(guò)長(zhǎng)期來(lái)看,我們還是對(duì) AI Agent 相當(dāng)有信心,OpenAI 等大模型公司會(huì)在模型推理能力上持續(xù)進(jìn)化,奔著AGI在狂奔,所以誰(shuí)知道GPT5 會(huì)帶給我們什么驚喜呢!
本文由 @小布Bruce 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
歡迎大家關(guān)注我的公眾號(hào):AI思,來(lái)查看更多最新內(nèi)容
其實(shí)你寫(xiě)了這么多Agent特征云云,但是我還是沒(méi)搞懂Agent是什么意思
這篇文章確實(shí)不算完全的小白科普文,后面我可以寫(xiě)一篇通俗易懂的介紹文章
我也沒(méi)搞懂
那你不適合吃這碗飯,很明白了,簡(jiǎn)單來(lái)說(shuō),就是幫你執(zhí)行任何事情的全自動(dòng)機(jī)器人,當(dāng)然可以是虛擬的