大佬們都在關(guān)注的AI Agent,到底是什么?用5W1H分析框架拆解AI Agent(中篇)
從AI Agent的起源到其在不同階段的技術(shù)突破,再到對(duì)未來(lái)發(fā)展方向的預(yù)測(cè),文章詳細(xì)闡述了AI Agent如何逐步演變?yōu)榻裉斓男螒B(tài),并探討了其在解決復(fù)雜任務(wù)中的潛力和挑戰(zhàn)。對(duì)于希望了解AI Agent及其在現(xiàn)代科技中角色的讀者來(lái)說(shuō),這是一篇不可錯(cuò)過(guò)的文章。
本篇文章是使用5W1H分析框架拆解AI Agent的中篇,在進(jìn)入正文之前,先總體回顧這一系列文章的脈絡(luò)。
上篇:介紹What + Why,主要解答以下問(wèn)題。
What:AI Agent是什么?AI Agent有哪些組成部分?AI Agent的原理是什么?AI Agent是怎么分類的?
Why:為什么會(huì)產(chǎn)生AI Agent?AI Agent的優(yōu)勢(shì)和劣勢(shì)是什么?為什么企業(yè)和個(gè)人都要關(guān)注AI Agent?
中篇:介紹When + Where + Who,主要解答以下問(wèn)題。
When:AI Agent的發(fā)展歷程是怎樣的?AI Agent未來(lái)的發(fā)展趨勢(shì)是怎樣的?
Where:AI Agent有哪些應(yīng)用場(chǎng)景?
Who:AI Agent領(lǐng)域的玩家有哪些?AI Agent領(lǐng)域的行業(yè)價(jià)值鏈?zhǔn)窃鯓拥模?/p>
下篇:介紹 How,主要解答以下問(wèn)題。
How:如何實(shí)現(xiàn)AI Agent?AI Agent包括哪些系統(tǒng)模塊?如何開(kāi)始學(xué)習(xí)AI Agent?
想了解全部?jī)?nèi)容的同學(xué),可以關(guān)注WXGZH“風(fēng)叔云”,回復(fù)關(guān)鍵詞“拆解AI Agent”,獲得《5W1H分析框架拆解AI Agent》的完整PPT文件。
在《大佬們都在關(guān)注的AI Agent,到底是什么?用5W1H分析框架拆解AI Agent(上篇)》中,圍繞What和Why,風(fēng)叔詳細(xì)闡述了AI Agent的概念、構(gòu)成、分類、產(chǎn)生原因、優(yōu)勢(shì)劣勢(shì)、以及對(duì)企業(yè)和個(gè)人的影響。
在這篇文章中,風(fēng)叔將圍繞When、Who和Where,詳細(xì)介紹AI Agent的發(fā)展歷程、行業(yè)玩家和具體應(yīng)用場(chǎng)景。
一、5W1H分析框架之When
1. AI Agent的發(fā)展歷程
對(duì)于一直關(guān)注AI大模型的讀者來(lái)說(shuō),下圖應(yīng)該不陌生。下面我們就沿著這個(gè)脈絡(luò),回顧一下AI Agent的發(fā)展歷程。
階段一,LLM大模型時(shí)代之前的Agent
Agent這一概念其實(shí)要早于LLM大模型,最早可以起源于馬文明斯基在80年代出版的《智能社會(huì)》這本書,Agent理論在LLM大模型出來(lái)之前,也已經(jīng)被學(xué)術(shù)界研究了很多年。
在《大佬們都在關(guān)注的AI Agent,到底是什么?用5W1H分析框架拆解AI Agent(上篇)》中,風(fēng)叔有介紹AI Agent的核心三大組成部分,Perception、Brain和Action,其中最關(guān)鍵的部分就是具備記憶、規(guī)劃和推理能力的Brain。在大模型出現(xiàn)之前,Agent的技術(shù)始終面臨天花板,無(wú)法取得實(shí)質(zhì)性的進(jìn)步,其核心就是缺乏具備規(guī)劃和推理能力的Brain,且這種Brain還需要具有良好的通用性和泛化性。
在LLM大模型出現(xiàn)之前,比較知名的垂直領(lǐng)域 Agent 的例子比如 Alphago,它有感知環(huán)境、思考決策、采取行動(dòng)的閉環(huán)邏輯。還有DeepMind的Agent57,使用強(qiáng)化學(xué)習(xí)方式讓Agent學(xué)習(xí)打游戲,以及OpenAI玩“躲貓貓”的多智能體。
在這一階段,常規(guī)的Agent更多采用結(jié)構(gòu)化固定模式,通過(guò)實(shí)現(xiàn)固定算法流程來(lái)完成一些自動(dòng)化任務(wù)。而大模型為Agent帶來(lái)了靈活性,使其可以應(yīng)對(duì)人類在腦力勞動(dòng)中面臨的各種復(fù)雜的長(zhǎng)尾任務(wù),進(jìn)一步實(shí)現(xiàn)體力和腦力任務(wù)的全面自動(dòng)化。
LLM大模型是第一個(gè)可以自主學(xué)習(xí)并擁有廣泛知識(shí)的AI模型,以LLM大模型作為Brain武裝起來(lái)的AI Agent,開(kāi)始迅速發(fā)展。
階段二,Prompt工程
在LLM大模型剛問(wèn)世的時(shí)候,大家都喜歡Prompt工程。用戶通過(guò)描述角色技能、任務(wù)關(guān)鍵詞、任務(wù)目標(biāo)及任務(wù)背景等信息,告訴大模型需要輸出的格式,然后大模型進(jìn)行輸出。
用戶們也充分發(fā)揮自己的聰明才智,發(fā)展了各種各樣的Prompt工程的玩法,如角色扮演、零樣本提示和少樣本提示。比如在少樣本提示下,用戶只需要給出少量示例,大模型就能學(xué)習(xí)到示例背后的邏輯,從而給出正確的答復(fù)。
當(dāng)任務(wù)過(guò)于復(fù)雜時(shí),超出了單一 Prompt 的能力時(shí),可以通過(guò)分解任務(wù),構(gòu)建多 Prompt 來(lái)協(xié)同解決。最常見(jiàn)的 Prompt 協(xié)同形式就是提示鏈 Prompt Chain,Prompt Chain 將原有需求進(jìn)行分解,通過(guò)用多個(gè)小的 Prompt 來(lái)串聯(lián)或并聯(lián),共同解決一項(xiàng)復(fù)雜任務(wù),如下圖所示。
階段三,大模型插件
雖然Prompt工程很強(qiáng)大,但是僅憑Prompt工程根本無(wú)法滿足人們?nèi)找嬖鲩L(zhǎng)的復(fù)雜需求。由于大模型本身的諸多缺陷,如不能及時(shí)更新知識(shí),上下文長(zhǎng)度有限等等,工程師們開(kāi)始給大模型加入插件。
比如引入向量數(shù)據(jù)庫(kù),對(duì)某些特定的專屬數(shù)據(jù)進(jìn)行切片、分塊和向量化,然后把數(shù)據(jù)索引進(jìn)向量數(shù)據(jù)庫(kù)。當(dāng)用戶進(jìn)行輸入時(shí),先通過(guò)數(shù)據(jù)召回找到最匹配的數(shù)據(jù)分塊,再提交給大模型做Prompt工程,這樣就可以使用到最新的和最準(zhǔn)確的知識(shí)。這就是檢索增強(qiáng)生成RAG,Retrieval-Augmented Generation。
同時(shí),為了讓大模型更好地和物理世界交互,工程師們嘗試讓 GPT 調(diào)用函數(shù)和使用工具。一系列關(guān)于工具使用的實(shí)踐開(kāi)始出現(xiàn),比如Toolformer和API Bank,ChatGPT也推出了自己的插件體系。
階段四,任務(wù)分解與反思
大模型在一些簡(jiǎn)單的任務(wù)上取得了還不錯(cuò)的結(jié)果,人們開(kāi)始往更深處探索大模型的智能,尤其是處理復(fù)雜問(wèn)題上的能力,這就涉及到了對(duì)復(fù)雜任務(wù)的分解,以及在行動(dòng)過(guò)程中的反思。
(1) 思維鏈COT
當(dāng)我們對(duì)LLM這樣要求「think step by step」,會(huì)發(fā)現(xiàn)LLM會(huì)把問(wèn)題分解成多個(gè)步驟,一步一步思考和解決,能使得輸出的結(jié)果更加準(zhǔn)確
(2) COT-SC
一個(gè)CoT有時(shí)可能出現(xiàn)錯(cuò)誤,我們可以讓Agent進(jìn)行發(fā)散,嘗試通過(guò)多種思路來(lái)解決問(wèn)題,然后投票選擇出最佳答案,這就是CoT-SC。
(3) 思維樹TOT
思維樹TOT是對(duì)思維鏈CoT的進(jìn)一步擴(kuò)展,在思維鏈的每一步,推理出多個(gè)分支,拓?fù)湔归_(kāi)成一棵思維樹。使用啟發(fā)式方法評(píng)估每個(gè)推理分支對(duì)問(wèn)題解決的貢獻(xiàn)。選擇搜索算法,使用廣度優(yōu)先搜索(BFS)或深度優(yōu)先搜索(DFS)等算法來(lái)探索思維樹,并進(jìn)行前瞻和回溯。
(4)思維圖GOT
思維樹ToT 的方式也存在一些缺陷,對(duì)于需要分解后再整合的問(wèn)題,比如排序問(wèn)題,排序我們可能需要分解和排序,然后再merge。這種情況下TOT就不行了,可以引入思維圖GOT來(lái)解決。
當(dāng)人們發(fā)現(xiàn)大模型的推理能力還是不足時(shí),開(kāi)始試圖讓模型自身清楚地描述問(wèn)題,把問(wèn)題轉(zhuǎn)化為 PDDL (Planning Domain Definition Language)格式的描述語(yǔ)言,通過(guò)調(diào)用通用規(guī)劃器來(lái)解決規(guī)劃問(wèn)題,再把解決方案轉(zhuǎn)化為可執(zhí)行的動(dòng)作,以更好地邏輯推理和規(guī)劃等任務(wù)。這就是LLM+P
上面幾種思路都是在解決任務(wù)分解問(wèn)題,工程師們也想到了很多解決大模型反思和完善自身行動(dòng)的思路。
首先是ReACT,全稱是Reasoning-Action,這種模式是讓大模型先進(jìn)行思考,思考完再進(jìn)行行動(dòng),然后根據(jù)行動(dòng)的結(jié)果再進(jìn)行觀察,再進(jìn)行思考,這樣一步一步循環(huán)下去。這種行為模式基本上就是人類這樣的智能體主要模式。
然而,工程師覺(jué)得這樣仍然不夠,他們希望大模型在完成每一個(gè)任務(wù)后,能夠積累經(jīng)驗(yàn)和教訓(xùn)、因此產(chǎn)生了借鑒強(qiáng)化學(xué)習(xí)思路的”反射”機(jī)制,反射機(jī)制能夠讓機(jī)器記住每一次任務(wù)的完成情況,無(wú)論效果好壞,以供未來(lái)參考,提升模型的性能。這就是Reflecxion。
階段五,Agent問(wèn)世
隨著各項(xiàng)基礎(chǔ)設(shè)施的逐步完善,更大的變革轟然襲來(lái),這就是Agent。2023年4月AutoGPT橫空出世正式宣告了LLM Agent的來(lái)臨,短短數(shù)周就獲得了9萬(wàn)星,賺足了眼球。
下圖是AutoGPT 的架構(gòu)圖,旨在實(shí)現(xiàn)對(duì)任務(wù)的有效管理。生成的任務(wù)將會(huì)被加入優(yōu)先級(jí)隊(duì)列中,隨后系統(tǒng)會(huì)不斷從優(yōu)先隊(duì)列中選擇優(yōu)先級(jí)最高的任務(wù)進(jìn)行執(zhí)行,整個(gè)過(guò)程中,任何反饋都會(huì)通過(guò)記憶進(jìn)行迭代優(yōu)化代碼
隨后,更多的LLM Agent如雨后春筍般爆發(fā)出來(lái),比如微軟的Jarvis HuggingGPT、專門用于寫小說(shuō)的RecurrentGPT、清華聯(lián)合面壁推出的雙循環(huán)機(jī)制XAgent、虛擬世界Minecraft中的智能體Voyager等等。
然后,工程師們就想到了Multi-Agent,既然Single Agent已經(jīng)具備了獨(dú)立決策和行動(dòng)能力,如果將多個(gè)Agent放到一個(gè)環(huán)境中,他們之間會(huì)碰撞出什么火花呢?
“斯坦福小鎮(zhèn)”項(xiàng)目應(yīng)該是最有名的Multi-Agent項(xiàng)目,在這個(gè)虛擬的小鎮(zhèn)里,有25 個(gè)獨(dú)立的 AI 智能體在小鎮(zhèn)上生活。他們的決策和行動(dòng)并不是固定寫死在系統(tǒng)里面的,每個(gè)智能體背后都連接著LLM大模型。他們有工作,會(huì)八卦,能組織社交,結(jié)交新朋友,甚至舉辦情人節(jié)派對(duì),每個(gè)小鎮(zhèn)居民都有獨(dú)特的個(gè)性和背景故事。這些角色每天會(huì)自己制定計(jì)劃,參與活動(dòng)和做事情,還會(huì)主動(dòng)和其他Agent交談。同時(shí),Agent交談的內(nèi)容會(huì)被存儲(chǔ)在記憶數(shù)據(jù)庫(kù)中,并在第二天的活動(dòng)計(jì)劃中被回憶和引用,是不是非常像人腦的記憶系統(tǒng)?“斯坦福小鎮(zhèn)”項(xiàng)目也涌現(xiàn)出了許多頗有趣味性的社會(huì)學(xué)現(xiàn)象。
還有一個(gè)很著名的Multi-Agent項(xiàng)目叫MetaGPT。這個(gè)項(xiàng)目按照軟件公司的組織架構(gòu),定義了多個(gè)AI智能體角色,包括產(chǎn)品經(jīng)理、架構(gòu)師、項(xiàng)目管理員、工程師和測(cè)試人員等角色。各角色之間通過(guò)相互協(xié)作,基本可以勝任完成500行左右代碼的小工程了。隨著AI Agent的進(jìn)一步強(qiáng)大,在未來(lái)每個(gè)人完全可以開(kāi)一家虛擬公司,自己承接物理世界的真實(shí)需求,然后交給虛擬公司的員工完成,非常具有想象空間。
這就是AI Agent到目前為止的大體發(fā)展過(guò)程,LLM大模型的出現(xiàn)是Agent發(fā)展的拐點(diǎn),Agent的發(fā)展速度如火箭般攀升。那么站在現(xiàn)在看未來(lái),AI Agent會(huì)有怎么樣的發(fā)展趨勢(shì)呢?
2. AI Agent的未來(lái)發(fā)展趨勢(shì)
在《大佬們都在關(guān)注的AI Agent,到底是什么?用5W1H分析框架拆解AI Agent(上篇)》中,風(fēng)叔有介紹到,目前AI Agent最大的局限就是可靠性不足。因?yàn)長(zhǎng)LM大模型容易出現(xiàn)幻覺(jué)和不一致性,將多個(gè)AI步驟連起來(lái)會(huì)進(jìn)一步加劇可靠性問(wèn)題,從而難以獲得用戶信任。舉個(gè)例子,假設(shè)每個(gè)步驟LLM的可靠性是95%,如果一個(gè)任務(wù)需要被分解到5步以上,那么最終的可靠性將不到80%,這會(huì)大大限制AI Agent在一些Critical場(chǎng)景下的應(yīng)用。
未來(lái),AI Agent的發(fā)展,必須首先要解決可靠性不足的問(wèn)題,而解決可靠性不足的問(wèn)題,就得從任務(wù)分解與反思、記憶優(yōu)化、Function Calling準(zhǔn)確性這幾個(gè)維度入手。
1)任務(wù)分解與反思
現(xiàn)在的 Agent 只是一個(gè)規(guī)劃器,它負(fù)責(zé)做規(guī)劃。但實(shí)際上,這個(gè)流程中還存在很多未明確的問(wèn)題,比如是否存在一個(gè)內(nèi)部加工過(guò)程,以及這個(gè)過(guò)程是否透明可控等。
類比我們?nèi)祟愃伎嫉倪^(guò)程,人腦有兩套系統(tǒng),系統(tǒng)1和系統(tǒng)2。系統(tǒng)1是快思考,出自于人類天生的本能,思考時(shí)間快,消耗能量少。系統(tǒng)2是慢思考,人類的邏輯能力、推理能力和歸納能力,皆是出自于系統(tǒng)2,而且系統(tǒng)2思考時(shí)間慢,消耗能量大。系統(tǒng)2的能力大多數(shù)都是人類后天習(xí)得的,但是經(jīng)過(guò)不斷地刻意練習(xí)后,一部分能力也能由系統(tǒng)2轉(zhuǎn)移到系統(tǒng)1,由慢思考變?yōu)榭焖伎肌?/p>
對(duì)于任務(wù)分別的難題,一種可能的解決辦法是將內(nèi)部加工過(guò)程外部化,用系統(tǒng)2包裹起來(lái),使每一步細(xì)粒度的思考都可以展現(xiàn)出來(lái)。但是具體如何用系統(tǒng)2進(jìn)行包裹,風(fēng)叔也還沒(méi)有具體的思路,需要持續(xù)關(guān)注AI Agent最新的論文和進(jìn)展。
2) 記憶優(yōu)化
目前,AI Agent的記憶機(jī)制是把所有的信息,以向量數(shù)據(jù)的方式存儲(chǔ)在歷史記錄里,然后在需要的時(shí)候進(jìn)行召回。這種記憶方式,站在工程化的角度,其實(shí)也比較合理,但是在實(shí)際使用中,會(huì)出現(xiàn)一些問(wèn)題。
首先,歷史記憶會(huì)越積越多,當(dāng)數(shù)據(jù)量到達(dá)一定程度之后,數(shù)據(jù)召回的速率就會(huì)顯著下降,從而影響AI Agent的反應(yīng)速度。其次,在記憶數(shù)據(jù)庫(kù)中,一定會(huì)存在大量的錯(cuò)誤信息,或者不合時(shí)宜的信息,但是AI Agent很難判斷哪些記憶是需要修正的。
人類的記憶其實(shí)是有重塑機(jī)制的,人類在獲得大量相關(guān)的知識(shí)后,不會(huì)簡(jiǎn)單地把它們堆積在腦中,而是通過(guò)海馬體進(jìn)行重整。比如在我們做夢(mèng)時(shí),大腦會(huì)重新構(gòu)造這些相關(guān)的知識(shí),使得記憶網(wǎng)絡(luò)變得有序。同時(shí),人類可以主動(dòng)刪除一些不好的記憶,或者錯(cuò)誤的記憶,比如很多生活中無(wú)關(guān)緊要的信息,人腦就會(huì)逐漸遺忘掉,從而避免記憶負(fù)荷越來(lái)越大。
所以在未來(lái),AI Agent一定要優(yōu)化記憶系統(tǒng),不能簡(jiǎn)單的將長(zhǎng)短時(shí)記憶簡(jiǎn)化為向量數(shù)據(jù)庫(kù)。
3) Function Calling準(zhǔn)確性
目前,F(xiàn)unction Calling是AI Agent進(jìn)行工具使用的最主要的手段,可以說(shuō)AI Agent的執(zhí)行能力強(qiáng)依賴于大模型的Function Calling能力。但是目前的Function Calling的準(zhǔn)確性其實(shí)并不理想,表現(xiàn)最好的大模型其準(zhǔn)確率也只有86%。
86%意味著什么?
意味著,目前的AI Agent還只能應(yīng)用在對(duì)準(zhǔn)確率要求不高、有人類進(jìn)行兜底的場(chǎng)景,比如撰寫論文或調(diào)研報(bào)告、智能客服等等。對(duì)于更加嚴(yán)謹(jǐn)?shù)膱?chǎng)景,比如工業(yè)、醫(yī)療、能源,還難以有AI Agent的用武之地。
還意味著,如果AI Agent需要執(zhí)行一連串的任務(wù),哪怕只有5個(gè)環(huán)節(jié),整體流程的準(zhǔn)確率將下降到不足30%,即系統(tǒng)不可用。
所以在未來(lái),AI Agent一定要提升Function Calling的準(zhǔn)確性,或者有更準(zhǔn)確的API調(diào)用方式。只有當(dāng)準(zhǔn)確率達(dá)到99.99%以上時(shí),AI Agent才能在更為廣闊的工業(yè)界生根發(fā)芽。
4)多模態(tài)與世界模型
除了以上三個(gè)維度之外,還有一個(gè)非常關(guān)鍵的點(diǎn),即多模態(tài)和世界模型。
在漫長(zhǎng)的進(jìn)化歷史中,生物神經(jīng)網(wǎng)絡(luò)從簡(jiǎn)單的條件反射逐漸進(jìn)化到今天的主動(dòng)預(yù)測(cè),我們已經(jīng)可以在大腦中構(gòu)建世界模型,進(jìn)行強(qiáng)大的推理和分析。比如當(dāng)我們看到晚霞時(shí),就會(huì)知道明天大概率是個(gè)晴天;比如當(dāng)我們感知到建筑發(fā)生搖晃時(shí),就知道很有可能發(fā)生了地震,需要趕緊去一個(gè)安全的地方。
現(xiàn)在的大模型主要是通過(guò)語(yǔ)言進(jìn)行交互,這樣顯然是不夠的。如果要進(jìn)一步理解世界,一定需要多模態(tài)輸入,包括視覺(jué)、聽(tīng)覺(jué)、傳感器等等。因此,未來(lái)的AI Agent一定會(huì)更多和物理實(shí)體相結(jié)合,比如將AI Agent集成進(jìn)入機(jī)器狗,訓(xùn)練其進(jìn)行救援任務(wù)。在這個(gè)過(guò)程中,對(duì)于時(shí)間的認(rèn)知、身體運(yùn)動(dòng)的控制也需要集成到AI Agent里面去。
AI Agent的發(fā)展速度太快了,每個(gè)月甚至每周,都有新的研究成果、新的產(chǎn)品問(wèn)世。我們能做的,就是躬身入局,時(shí)刻關(guān)注大模型和Agent的發(fā)展。
二、5W1H分析框架之Who
接下來(lái),我們?cè)購(gòu)?#8221;Who”這個(gè)維度拆解一下AI Agent,主要回答AI Agent領(lǐng)域都有哪些核心玩家這一關(guān)鍵問(wèn)題。
風(fēng)叔將從三個(gè)角度來(lái)進(jìn)行拆解:從AI Agent框架本身,從AI Agent的行業(yè)場(chǎng)景,以及從國(guó)內(nèi)AI Agent生態(tài)。
1. 從AI Agent框架本身
下面這張圖來(lái)自風(fēng)險(xiǎn)投資公司Aura Ventures的《自主人工智能體新興市場(chǎng)格局》,按照AI Agent的框架,將整個(gè)Agent產(chǎn)業(yè)自下而上分成了三層:最下面為用于智能體運(yùn)營(yíng)(AgentOps)的模塊插件層,中間為程序應(yīng)用層(Applications),最上面為服務(wù)層(Services)。整個(gè)劃分非常清晰,唯一美中不足的是,這張圖成圖于去年,因此難以揭示目前最新的Agent發(fā)展?fàn)顩r。
1)AgentOps運(yùn)營(yíng)層
我們先來(lái)看最下面的AgentOps,非常明顯了采用了AI Agent的組成架構(gòu),即智能(Intelligence,負(fù)責(zé)Planning)、記憶(Memory)、工具使用(Tools & Plugins)。此外,還有多智能體環(huán)境和協(xié)議(Multi-agent playgrounds and protocols)、監(jiān)控/安全和預(yù)算(Monitoring,security and budgetary)、以及智能體運(yùn)營(yíng)市場(chǎng)(AgentOps marketplace)等輔助模塊。
- 智能(Intelligence):智能體的“大腦”,背后是LLM大模型,負(fù)責(zé)任務(wù)創(chuàng)建和規(guī)劃,這里我們能看到OpenAI GPT、Claude、HuggingFace等耳熟能詳?shù)拿帧4竽P唾|(zhì)量、可靠性和成本,將是這部分玩家的制勝關(guān)鍵。
- 記憶(Memory):用于獲取、存儲(chǔ)、保留和檢索數(shù)據(jù),向量數(shù)據(jù)庫(kù)是其中的關(guān)鍵。這里的玩家包括 Pinecone、Chroma以及像Perplexity AI一樣具有集成優(yōu)勢(shì)的Text to SQL 初創(chuàng)公司。記憶容量、讀取速率、尤其是召回準(zhǔn)確率,將是這部分玩家的關(guān)鍵因素。
- 工具和插件(Tools and plugins):能夠?yàn)锳gent提供API和技能庫(kù),用于Agent和外部系統(tǒng)與環(huán)境進(jìn)行交互,例如搜索查詢、發(fā)送郵件等。典型的包括API-Bank、Toolformer、以及部分大模型自帶的function calling能力。
- 多智能體環(huán)境和協(xié)議:這部分主要用于智能體和智能體的通信協(xié)議,包括PumaMart、SIM Gen Agents和E2B。
- 監(jiān)控、安全和預(yù)算:這部分主要解決智能體在LLM大模型、通信協(xié)議、安全安保方面的問(wèn)題,也應(yīng)該受到重視,安全是任何場(chǎng)景下使用Agent的前提。
- 智能體運(yùn)營(yíng)市場(chǎng):主要用于Agent框架的發(fā)布、開(kāi)源Agent的共享等。這塊最主要的玩家是HuggingFace和Github,還有FinGPT、BabyAGI等開(kāi)源框架。
2) Agent應(yīng)用層
Agent應(yīng)用程序?qū)影ㄍㄓ脩?yīng)用(General purpose)和行業(yè)應(yīng)用(Business industry)
通用應(yīng)用主要偏個(gè)人應(yīng)用場(chǎng)景,比如個(gè)人生活助理、商務(wù)助理、日常工作助理等等。典型的產(chǎn)品包括Embra AI、Adept AI、Cognosys AI。
行業(yè)應(yīng)用主要偏業(yè)務(wù)垂直場(chǎng)景,比如編程、營(yíng)銷、金融、供應(yīng)鏈等等。典型的產(chǎn)品包括Quill AI、Octain AI等等
3)Agent服務(wù)層
Agent服務(wù)層主要包括智能體搭建平臺(tái)和智能體市場(chǎng)。
智能體搭建平臺(tái)是一種低代碼平臺(tái),支持普通用戶通過(guò)簡(jiǎn)單的配置搭建屬于自己的Agent,大幅降低AI Agent的創(chuàng)建門檻。目前智能體搭建平臺(tái)受到了很多大廠的青睞,因?yàn)榇髲S很難一開(kāi)始基于某些垂類場(chǎng)景開(kāi)發(fā)Agent應(yīng)用,因此智能體搭建平臺(tái)成為最實(shí)際的選擇。比如微軟的Autogen、百度智能體平臺(tái)、字節(jié)Coze、騰訊元器等等。
下圖是字節(jié)Coze的智能體搭建的示意圖,提供了非常豐富的組件,方便用戶通過(guò)拖拉拽的方式快速搭建AI Agent。在后續(xù)文章中,風(fēng)叔還會(huì)專門介紹搭建AI Agent的具體方法。
很多智能體搭建平臺(tái)也對(duì)外開(kāi)放了Agent市場(chǎng),使用者將自己搭建的Agent部署上線之后,其他用戶也能搜索并使用。下圖是字節(jié)Coze的Agent市場(chǎng)示例圖。
2. 從AI Agent行業(yè)場(chǎng)景
E2B出品的這份AI Agent行業(yè)全景圖是相對(duì)比較完整的。整張圖有兩個(gè)維度,第一個(gè)維度是開(kāi)源和閉源,第二個(gè)維度是AI應(yīng)用,包括了Coding、Productivity、General Purpose、HR、Data Analysis、Business Intelligence、Science、Research、Design、Marketing、Finance等細(xì)分領(lǐng)域。
每個(gè)細(xì)分領(lǐng)域具體的玩家就不一一列舉了,大家可以詳細(xì)參考下圖。另外,這張圖是持續(xù)更新的,通過(guò)這個(gè)地址 https://github.com/e2b-dev/awesome-ai-agents,大家就能看到最新的進(jìn)展,以及E2B對(duì)每個(gè)玩家的詳細(xì)介紹。
3. 國(guó)內(nèi)AIAgent生態(tài)
目前國(guó)內(nèi)的AI Agent發(fā)展也十分迅猛,下圖是甲子光年出品的中國(guó)AI Agent生態(tài)圖譜1.0,將整個(gè)AI Agent行業(yè)分為三層。
最底層是算力層,包括像阿里云、AWS、華為云這類提供底層GPU算力的云廠商。
中間是平臺(tái)框架層,包括面向企業(yè)業(yè)務(wù)工作流場(chǎng)景的企業(yè)級(jí)AI Agent平臺(tái),比如釘釘、匯智智能、瀾碼科技。以及面向個(gè)人開(kāi)發(fā)者或普通用戶的AI Agent平臺(tái),比如百度文心智能體平臺(tái)、阿里ModelScope、字節(jié)扣子等。
最上層是垂直應(yīng)用層,比如專注于金融行業(yè)的Easy Link、招聘行業(yè)的用友和Moka、營(yíng)銷領(lǐng)域的BetterYeah。
對(duì)于普通的創(chuàng)業(yè)者或創(chuàng)業(yè)團(tuán)隊(duì)來(lái)說(shuō),肯定沒(méi)有足夠的資源投入大模型賽道,但是站在大模型的肩膀上,選擇一個(gè)相對(duì)垂直的領(lǐng)域做AI Agent,服務(wù)于企業(yè)客戶的具體業(yè)務(wù)流程和場(chǎng)景,是更加切實(shí)可行的選擇。
三、5W1H分析框架之Where
AI Agent的發(fā)展正在以前所未有的速度改變我們的生活和工作方式。接下來(lái)我們從行業(yè)視角來(lái)分析一下,在具體的行業(yè)中AI Agent都有哪些可落地的場(chǎng)景。
1. 電商&零售
- 個(gè)性化推薦系統(tǒng):將用戶的歷史瀏覽數(shù)據(jù)、購(gòu)買數(shù)據(jù)以及當(dāng)下和AI的上下文數(shù)據(jù),作為輸入給到AI Agent,Agent自動(dòng)預(yù)測(cè)用戶在未來(lái)對(duì)各類商品的購(gòu)買率,進(jìn)行重排后輸出預(yù)估購(gòu)買率最高的TopN商品,實(shí)現(xiàn)個(gè)性化的產(chǎn)品推薦。
- 個(gè)性化營(yíng)銷系統(tǒng):將用戶歷史上在各個(gè)營(yíng)銷渠道的觸達(dá)和點(diǎn)擊數(shù)據(jù),結(jié)合本次營(yíng)銷活動(dòng)的營(yíng)銷內(nèi)容,作為輸入給到AI Agent,Agent自動(dòng)預(yù)測(cè)每個(gè)用戶在每個(gè)營(yíng)銷渠道(比如短信、外呼、小程序、公眾號(hào)等)的預(yù)估點(diǎn)擊率,從而實(shí)現(xiàn)自動(dòng)化和個(gè)性化的營(yíng)銷活動(dòng),提高用戶參與度和品牌曝光度。
- 智能客服:通過(guò)提前構(gòu)建企業(yè)專屬知識(shí)庫(kù),AI Agent 可以自動(dòng)回答用戶的咨詢,處理訂單問(wèn)題和退貨請(qǐng)求。相比傳統(tǒng)智能客戶,AI Agent可以支持用戶靈活多樣的問(wèn)題,不用局限于傳統(tǒng)的Q&A模板,可以大幅節(jié)省準(zhǔn)備問(wèn)答對(duì)的時(shí)間,提升智能客服的準(zhǔn)確率。
- 內(nèi)容生成:在電商場(chǎng)景中,經(jīng)常會(huì)涉及到商品封面圖、海報(bào)、商品詳情頁(yè)、營(yíng)銷文案等內(nèi)容的生成。傳統(tǒng)的做法都需要人工拍攝和撰寫,而在AI Agent的助力下,使用者只需要告訴Agent關(guān)鍵詞,比如商品類型、內(nèi)容形態(tài)、內(nèi)容主題和風(fēng)格等,AI Agent可以自動(dòng)完成。
- 需求預(yù)測(cè):將過(guò)去一段時(shí)間內(nèi),各個(gè)品類的銷量數(shù)據(jù)、促銷活動(dòng)信息、天氣信息等數(shù)據(jù),作為輸入給到AI Agent,Agent預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)的銷量,從而幫助企業(yè)提前做好配貨。
- 庫(kù)存管理:將歷史各個(gè)品類的訂單數(shù)據(jù),各個(gè)供應(yīng)商的供貨數(shù)據(jù),比如供貨周期、供貨價(jià)格,作為輸入給到AI Agent,AI Agent預(yù)測(cè)每個(gè)品類的安全庫(kù)存,并在商品庫(kù)存預(yù)警時(shí),自動(dòng)發(fā)起采購(gòu)流程。
- 價(jià)格優(yōu)化:AI Agent還可以使用爬蟲工具獲取市場(chǎng)動(dòng)態(tài)、競(jìng)爭(zhēng)對(duì)手定價(jià)和用戶行為,經(jīng)過(guò)數(shù)據(jù)分析后,為電商企業(yè)提供動(dòng)態(tài)定價(jià)建議。這種實(shí)時(shí)的價(jià)格調(diào)整策略有助于最大化利潤(rùn)和競(jìng)爭(zhēng)力。
2. 制造業(yè)
- 質(zhì)量控制:用攝像頭捕捉生產(chǎn)線上各類零件和成品的圖像,將圖片或視頻傳遞給AI Agent,Agent利用計(jì)算機(jī)視覺(jué)技術(shù)對(duì)圖像進(jìn)行分析,自動(dòng)檢測(cè)產(chǎn)品缺陷。當(dāng)檢測(cè)到存在缺陷的零件時(shí),可以發(fā)送通知給產(chǎn)線檢查員,甚至可以直接操作機(jī)械臂取出缺陷品。
- 生產(chǎn)線優(yōu)化:生產(chǎn)線流程是一個(gè)標(biāo)準(zhǔn)的workflow,workflow的每個(gè)環(huán)節(jié)都有明確的步驟、檢查事項(xiàng)和執(zhí)行動(dòng)作。在這個(gè)過(guò)程中,可以利用Agentic Workfow,明確告知Agent要做的事項(xiàng),將更多過(guò)去需要由人工重復(fù)執(zhí)行的過(guò)程,交給AI Agent,從而提升生產(chǎn)效率。
- 產(chǎn)品設(shè)計(jì)與開(kāi)發(fā):AI Agent 可以協(xié)助設(shè)計(jì)師和工程師進(jìn)行產(chǎn)品設(shè)計(jì),比如設(shè)計(jì)師輸入設(shè)計(jì)和尺寸的要求,AI Agent直接進(jìn)行線稿設(shè)計(jì);或者設(shè)計(jì)師提供線稿設(shè)計(jì)后,AI Agent輸出渲染效果圖,向設(shè)計(jì)師提供多種設(shè)計(jì)創(chuàng)意,從而縮短產(chǎn)品開(kāi)發(fā)的周期。
- 能源消耗管理:AI Agent能夠接收機(jī)器或設(shè)備上傳感器的數(shù)據(jù),例如溫度、電壓、電流等等,和數(shù)據(jù)庫(kù)中正常的設(shè)備運(yùn)行數(shù)據(jù)進(jìn)行比對(duì),從而對(duì)設(shè)備的運(yùn)行情況進(jìn)行監(jiān)控和預(yù)警。例如,當(dāng)某個(gè)設(shè)備因電源老化出現(xiàn)電壓異常時(shí),AI Agent可以提早識(shí)別,并預(yù)警給工廠設(shè)備的維修人員。
- 供應(yīng)鏈管理:和電商行業(yè)的需求預(yù)測(cè)和庫(kù)存優(yōu)化類似,AI Agent可以預(yù)測(cè)產(chǎn)品未來(lái)一段時(shí)間的銷量,同時(shí)根據(jù)歷史訂單和采購(gòu)數(shù)據(jù)預(yù)測(cè)最優(yōu)的安全庫(kù)存,以及通過(guò)預(yù)警機(jī)制進(jìn)行供應(yīng)鏈上下游的協(xié)同,幫助企業(yè)更好地應(yīng)對(duì)市場(chǎng)需求的波動(dòng)和變化。
- 工藝改進(jìn):AI Agent 還可以通過(guò)分析生產(chǎn)過(guò)程中的數(shù)據(jù),比如在不同環(huán)境和參數(shù)下生產(chǎn)出來(lái)的產(chǎn)品的差異性,從而進(jìn)行工藝參數(shù)的優(yōu)化,提升產(chǎn)品質(zhì)量和生產(chǎn)效率
3. 醫(yī)療行業(yè)
- 疾病預(yù)測(cè)和預(yù)防:通過(guò)歷史積累的患者健康數(shù)據(jù),比如血糖、血氧、白細(xì)胞、紅細(xì)胞等大量指標(biāo)數(shù)據(jù),AI Agent可以學(xué)習(xí)到各項(xiàng)指標(biāo)與疾病之間的相關(guān)性,對(duì)于像糖尿病、心臟病等疾病,提前預(yù)測(cè)病人患此類疾病的風(fēng)險(xiǎn)。
- 藥物研發(fā):和疾病預(yù)測(cè)類似,AI Agent可以分析既有藥物中的各種化學(xué)和生物成分,結(jié)合每種藥物的藥效,從而預(yù)測(cè)新的化學(xué)和成分組合之后的藥性,加速新藥的發(fā)掘和開(kāi)發(fā),大幅降低研發(fā)成本和時(shí)間。
- 智能問(wèn)診服務(wù):在LLM大模型基礎(chǔ)上,通過(guò)RAG技術(shù)掛載醫(yī)療知識(shí)庫(kù),將AI Agent訓(xùn)練成為醫(yī)療領(lǐng)域?qū)2?,為患者提?*24小時(shí)的在線醫(yī)療咨詢服務(wù),根據(jù)患者的問(wèn)題描述,還能提供初步的診斷建議。這樣既可以提升患者的就醫(yī)體驗(yàn),也能減輕醫(yī)生的工作負(fù)擔(dān)。
- 醫(yī)療影像分析:通過(guò)機(jī)器視覺(jué)技術(shù),AI Agent 能夠輔助醫(yī)生分析 X 光、MRI、CT 等醫(yī)療影像,快速識(shí)別出患者是否有異常情況,如腫瘤、肺炎、骨折等,提高診斷的準(zhǔn)確性和效率。
- 醫(yī)療教育和培訓(xùn):當(dāng)AI Agent掛載了專門的醫(yī)學(xué)知識(shí)庫(kù)之后,還可以作為醫(yī)療教育的工具。比如AI Agent可以模擬患者向醫(yī)學(xué)院的學(xué)生提問(wèn),根據(jù)學(xué)生的回答,自動(dòng)分析學(xué)生的學(xué)習(xí)情況,并指出學(xué)生的錯(cuò)誤和不足,并引導(dǎo)學(xué)生進(jìn)行專門的醫(yī)療課程學(xué)習(xí)。
AI Agent在各個(gè)行業(yè)都有非常多的應(yīng)用場(chǎng)景,除了上述介紹的電商、制造、醫(yī)療之外,還包括金融、物流、能源、人資、旅游、教育等等行業(yè),風(fēng)叔就不在文章里一一贅述了。
風(fēng)叔專門整理了一張行業(yè)應(yīng)用場(chǎng)景的腦圖,感興趣的讀者可以關(guān)注WXGZH“風(fēng)叔云”,回復(fù)“AI Agent應(yīng)用場(chǎng)景”,即可獲取完整的應(yīng)用場(chǎng)景圖。
四、總結(jié)
本篇文章是使用5W1H分析框架拆解AI Agent的中篇,圍繞When、Who和Where,詳細(xì)闡述了AI Agent的發(fā)展歷程、行業(yè)玩家和具體應(yīng)用場(chǎng)景。
在下一篇文章中,風(fēng)叔將圍繞How,詳細(xì)介紹AI Agent的具體實(shí)現(xiàn)路徑,以及如何更快的上手學(xué)習(xí)AI Agent。
作者:風(fēng)叔,微信公眾號(hào):風(fēng)叔云
本文由@風(fēng)叔 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
拆解AI Agent