久久综合精品国产二区无码不卡,国产欧美成人不卡视频

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

風(fēng)叔

2024-07-22

1 評(píng)論 4574 瀏覽 24 收藏

從AI Agent的起源到其在不同階段的技術(shù)突破，再到對(duì)未來(lái)發(fā)展方向的預(yù)測(cè)，文章詳細(xì)闡述了AI Agent如何逐步演變?yōu)榻裉斓男螒B(tài)，并探討了其在解決復(fù)雜任務(wù)中的潛力和挑戰(zhàn)。對(duì)于希望了解AI Agent及其在現(xiàn)代科技中角色的讀者來(lái)說(shuō)，這是一篇不可錯(cuò)過(guò)的文章。

本篇文章是使用5W1H分析框架拆解AI Agent的中篇，在進(jìn)入正文之前，先總體回顧這一系列文章的脈絡(luò)。

上篇：介紹What + Why，主要解答以下問(wèn)題。

What：AI Agent是什么？AI Agent有哪些組成部分？AI Agent的原理是什么？AI Agent是怎么分類的？

Why：為什么會(huì)產(chǎn)生AI Agent？AI Agent的優(yōu)勢(shì)和劣勢(shì)是什么？為什么企業(yè)和個(gè)人都要關(guān)注AI Agent？

中篇：介紹When + Where + Who，主要解答以下問(wèn)題。

When：AI Agent的發(fā)展歷程是怎樣的？AI Agent未來(lái)的發(fā)展趨勢(shì)是怎樣的？

Where：AI Agent有哪些應(yīng)用場(chǎng)景？

Who：AI Agent領(lǐng)域的玩家有哪些？AI Agent領(lǐng)域的行業(yè)價(jià)值鏈?zhǔn)窃鯓拥模?/p>

下篇：介紹 How，主要解答以下問(wèn)題。

How：如何實(shí)現(xiàn)AI Agent？AI Agent包括哪些系統(tǒng)模塊？如何開(kāi)始學(xué)習(xí)AI Agent？

想了解全部?jī)?nèi)容的同學(xué)，可以關(guān)注WXGZH“風(fēng)叔云”，回復(fù)關(guān)鍵詞“拆解AI Agent”，獲得《5W1H分析框架拆解AI Agent》的完整PPT文件。

在《大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）》中，圍繞What和Why，風(fēng)叔詳細(xì)闡述了AI Agent的概念、構(gòu)成、分類、產(chǎn)生原因、優(yōu)勢(shì)劣勢(shì)、以及對(duì)企業(yè)和個(gè)人的影響。

在這篇文章中，風(fēng)叔將圍繞When、Who和Where，詳細(xì)介紹AI Agent的發(fā)展歷程、行業(yè)玩家和具體應(yīng)用場(chǎng)景。

一、5W1H分析框架之When

1. AI Agent的發(fā)展歷程

對(duì)于一直關(guān)注AI大模型的讀者來(lái)說(shuō)，下圖應(yīng)該不陌生。下面我們就沿著這個(gè)脈絡(luò)，回顧一下AI Agent的發(fā)展歷程。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

階段一，LLM大模型時(shí)代之前的Agent

Agent這一概念其實(shí)要早于LLM大模型，最早可以起源于馬文明斯基在80年代出版的《智能社會(huì)》這本書，Agent理論在LLM大模型出來(lái)之前，也已經(jīng)被學(xué)術(shù)界研究了很多年。

在《大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）》中，風(fēng)叔有介紹AI Agent的核心三大組成部分，Perception、Brain和Action，其中最關(guān)鍵的部分就是具備記憶、規(guī)劃和推理能力的Brain。在大模型出現(xiàn)之前，Agent的技術(shù)始終面臨天花板，無(wú)法取得實(shí)質(zhì)性的進(jìn)步，其核心就是缺乏具備規(guī)劃和推理能力的Brain，且這種Brain還需要具有良好的通用性和泛化性。

在LLM大模型出現(xiàn)之前，比較知名的垂直領(lǐng)域 Agent 的例子比如 Alphago，它有感知環(huán)境、思考決策、采取行動(dòng)的閉環(huán)邏輯。還有DeepMind的Agent57，使用強(qiáng)化學(xué)習(xí)方式讓Agent學(xué)習(xí)打游戲，以及OpenAI玩“躲貓貓”的多智能體。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

在這一階段，常規(guī)的Agent更多采用結(jié)構(gòu)化固定模式，通過(guò)實(shí)現(xiàn)固定算法流程來(lái)完成一些自動(dòng)化任務(wù)。而大模型為Agent帶來(lái)了靈活性，使其可以應(yīng)對(duì)人類在腦力勞動(dòng)中面臨的各種復(fù)雜的長(zhǎng)尾任務(wù)，進(jìn)一步實(shí)現(xiàn)體力和腦力任務(wù)的全面自動(dòng)化。

LLM大模型是第一個(gè)可以自主學(xué)習(xí)并擁有廣泛知識(shí)的AI模型，以LLM大模型作為Brain武裝起來(lái)的AI Agent，開(kāi)始迅速發(fā)展。

階段二，Prompt工程

在LLM大模型剛問(wèn)世的時(shí)候，大家都喜歡Prompt工程。用戶通過(guò)描述角色技能、任務(wù)關(guān)鍵詞、任務(wù)目標(biāo)及任務(wù)背景等信息，告訴大模型需要輸出的格式，然后大模型進(jìn)行輸出。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

用戶們也充分發(fā)揮自己的聰明才智，發(fā)展了各種各樣的Prompt工程的玩法，如角色扮演、零樣本提示和少樣本提示。比如在少樣本提示下，用戶只需要給出少量示例，大模型就能學(xué)習(xí)到示例背后的邏輯，從而給出正確的答復(fù)。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

當(dāng)任務(wù)過(guò)于復(fù)雜時(shí)，超出了單一 Prompt 的能力時(shí)，可以通過(guò)分解任務(wù)，構(gòu)建多 Prompt 來(lái)協(xié)同解決。最常見(jiàn)的 Prompt 協(xié)同形式就是提示鏈 Prompt Chain，Prompt Chain 將原有需求進(jìn)行分解，通過(guò)用多個(gè)小的 Prompt 來(lái)串聯(lián)或并聯(lián)，共同解決一項(xiàng)復(fù)雜任務(wù)，如下圖所示。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

階段三，大模型插件

雖然Prompt工程很強(qiáng)大，但是僅憑Prompt工程根本無(wú)法滿足人們?nèi)找嬖鲩L(zhǎng)的復(fù)雜需求。由于大模型本身的諸多缺陷，如不能及時(shí)更新知識(shí)，上下文長(zhǎng)度有限等等，工程師們開(kāi)始給大模型加入插件。

比如引入向量數(shù)據(jù)庫(kù)，對(duì)某些特定的專屬數(shù)據(jù)進(jìn)行切片、分塊和向量化，然后把數(shù)據(jù)索引進(jìn)向量數(shù)據(jù)庫(kù)。當(dāng)用戶進(jìn)行輸入時(shí)，先通過(guò)數(shù)據(jù)召回找到最匹配的數(shù)據(jù)分塊，再提交給大模型做Prompt工程，這樣就可以使用到最新的和最準(zhǔn)確的知識(shí)。這就是檢索增強(qiáng)生成RAG，Retrieval-Augmented Generation。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

同時(shí)，為了讓大模型更好地和物理世界交互，工程師們嘗試讓 GPT 調(diào)用函數(shù)和使用工具。一系列關(guān)于工具使用的實(shí)踐開(kāi)始出現(xiàn)，比如Toolformer和API Bank，ChatGPT也推出了自己的插件體系。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

階段四，任務(wù)分解與反思

大模型在一些簡(jiǎn)單的任務(wù)上取得了還不錯(cuò)的結(jié)果，人們開(kāi)始往更深處探索大模型的智能，尤其是處理復(fù)雜問(wèn)題上的能力，這就涉及到了對(duì)復(fù)雜任務(wù)的分解，以及在行動(dòng)過(guò)程中的反思。

(1) 思維鏈COT

當(dāng)我們對(duì)LLM這樣要求「think step by step」，會(huì)發(fā)現(xiàn)LLM會(huì)把問(wèn)題分解成多個(gè)步驟，一步一步思考和解決，能使得輸出的結(jié)果更加準(zhǔn)確

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

(2) COT-SC

一個(gè)CoT有時(shí)可能出現(xiàn)錯(cuò)誤，我們可以讓Agent進(jìn)行發(fā)散，嘗試通過(guò)多種思路來(lái)解決問(wèn)題，然后投票選擇出最佳答案，這就是CoT-SC。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

(3) 思維樹TOT

思維樹TOT是對(duì)思維鏈CoT的進(jìn)一步擴(kuò)展，在思維鏈的每一步，推理出多個(gè)分支，拓?fù)湔归_(kāi)成一棵思維樹。使用啟發(fā)式方法評(píng)估每個(gè)推理分支對(duì)問(wèn)題解決的貢獻(xiàn)。選擇搜索算法，使用廣度優(yōu)先搜索（BFS）或深度優(yōu)先搜索（DFS）等算法來(lái)探索思維樹，并進(jìn)行前瞻和回溯。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

(4)思維圖GOT

思維樹ToT 的方式也存在一些缺陷，對(duì)于需要分解后再整合的問(wèn)題，比如排序問(wèn)題，排序我們可能需要分解和排序，然后再merge。這種情況下TOT就不行了，可以引入思維圖GOT來(lái)解決。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

當(dāng)人們發(fā)現(xiàn)大模型的推理能力還是不足時(shí)，開(kāi)始試圖讓模型自身清楚地描述問(wèn)題，把問(wèn)題轉(zhuǎn)化為 PDDL （Planning Domain Definition Language）格式的描述語(yǔ)言，通過(guò)調(diào)用通用規(guī)劃器來(lái)解決規(guī)劃問(wèn)題，再把解決方案轉(zhuǎn)化為可執(zhí)行的動(dòng)作，以更好地邏輯推理和規(guī)劃等任務(wù)。這就是LLM+P

上面幾種思路都是在解決任務(wù)分解問(wèn)題，工程師們也想到了很多解決大模型反思和完善自身行動(dòng)的思路。

首先是ReACT，全稱是Reasoning-Action，這種模式是讓大模型先進(jìn)行思考，思考完再進(jìn)行行動(dòng)，然后根據(jù)行動(dòng)的結(jié)果再進(jìn)行觀察，再進(jìn)行思考，這樣一步一步循環(huán)下去。這種行為模式基本上就是人類這樣的智能體主要模式。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

然而，工程師覺(jué)得這樣仍然不夠，他們希望大模型在完成每一個(gè)任務(wù)后，能夠積累經(jīng)驗(yàn)和教訓(xùn)、因此產(chǎn)生了借鑒強(qiáng)化學(xué)習(xí)思路的”反射”機(jī)制，反射機(jī)制能夠讓機(jī)器記住每一次任務(wù)的完成情況，無(wú)論效果好壞，以供未來(lái)參考，提升模型的性能。這就是Reflecxion。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

階段五，Agent問(wèn)世

隨著各項(xiàng)基礎(chǔ)設(shè)施的逐步完善，更大的變革轟然襲來(lái)，這就是Agent。2023年4月AutoGPT橫空出世正式宣告了LLM Agent的來(lái)臨，短短數(shù)周就獲得了9萬(wàn)星，賺足了眼球。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

下圖是AutoGPT 的架構(gòu)圖，旨在實(shí)現(xiàn)對(duì)任務(wù)的有效管理。生成的任務(wù)將會(huì)被加入優(yōu)先級(jí)隊(duì)列中，隨后系統(tǒng)會(huì)不斷從優(yōu)先隊(duì)列中選擇優(yōu)先級(jí)最高的任務(wù)進(jìn)行執(zhí)行，整個(gè)過(guò)程中，任何反饋都會(huì)通過(guò)記憶進(jìn)行迭代優(yōu)化代碼

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

隨后，更多的LLM Agent如雨后春筍般爆發(fā)出來(lái)，比如微軟的Jarvis HuggingGPT、專門用于寫小說(shuō)的RecurrentGPT、清華聯(lián)合面壁推出的雙循環(huán)機(jī)制XAgent、虛擬世界Minecraft中的智能體Voyager等等。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

然后，工程師們就想到了Multi-Agent，既然Single Agent已經(jīng)具備了獨(dú)立決策和行動(dòng)能力，如果將多個(gè)Agent放到一個(gè)環(huán)境中，他們之間會(huì)碰撞出什么火花呢？

“斯坦福小鎮(zhèn)”項(xiàng)目應(yīng)該是最有名的Multi-Agent項(xiàng)目，在這個(gè)虛擬的小鎮(zhèn)里，有25 個(gè)獨(dú)立的 AI 智能體在小鎮(zhèn)上生活。他們的決策和行動(dòng)并不是固定寫死在系統(tǒng)里面的，每個(gè)智能體背后都連接著LLM大模型。他們有工作，會(huì)八卦，能組織社交，結(jié)交新朋友，甚至舉辦情人節(jié)派對(duì)，每個(gè)小鎮(zhèn)居民都有獨(dú)特的個(gè)性和背景故事。這些角色每天會(huì)自己制定計(jì)劃，參與活動(dòng)和做事情，還會(huì)主動(dòng)和其他Agent交談。同時(shí)，Agent交談的內(nèi)容會(huì)被存儲(chǔ)在記憶數(shù)據(jù)庫(kù)中，并在第二天的活動(dòng)計(jì)劃中被回憶和引用，是不是非常像人腦的記憶系統(tǒng)？“斯坦福小鎮(zhèn)”項(xiàng)目也涌現(xiàn)出了許多頗有趣味性的社會(huì)學(xué)現(xiàn)象。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

還有一個(gè)很著名的Multi-Agent項(xiàng)目叫MetaGPT。這個(gè)項(xiàng)目按照軟件公司的組織架構(gòu)，定義了多個(gè)AI智能體角色，包括產(chǎn)品經(jīng)理、架構(gòu)師、項(xiàng)目管理員、工程師和測(cè)試人員等角色。各角色之間通過(guò)相互協(xié)作，基本可以勝任完成500行左右代碼的小工程了。隨著AI Agent的進(jìn)一步強(qiáng)大，在未來(lái)每個(gè)人完全可以開(kāi)一家虛擬公司，自己承接物理世界的真實(shí)需求，然后交給虛擬公司的員工完成，非常具有想象空間。

這就是AI Agent到目前為止的大體發(fā)展過(guò)程，LLM大模型的出現(xiàn)是Agent發(fā)展的拐點(diǎn)，Agent的發(fā)展速度如火箭般攀升。那么站在現(xiàn)在看未來(lái)，AI Agent會(huì)有怎么樣的發(fā)展趨勢(shì)呢？

2. AI Agent的未來(lái)發(fā)展趨勢(shì)

在《大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）》中，風(fēng)叔有介紹到，目前AI Agent最大的局限就是可靠性不足。因?yàn)長(zhǎng)LM大模型容易出現(xiàn)幻覺(jué)和不一致性，將多個(gè)AI步驟連起來(lái)會(huì)進(jìn)一步加劇可靠性問(wèn)題，從而難以獲得用戶信任。舉個(gè)例子，假設(shè)每個(gè)步驟LLM的可靠性是95%，如果一個(gè)任務(wù)需要被分解到5步以上，那么最終的可靠性將不到80%，這會(huì)大大限制AI Agent在一些Critical場(chǎng)景下的應(yīng)用。

未來(lái)，AI Agent的發(fā)展，必須首先要解決可靠性不足的問(wèn)題，而解決可靠性不足的問(wèn)題，就得從任務(wù)分解與反思、記憶優(yōu)化、Function Calling準(zhǔn)確性這幾個(gè)維度入手。

1）任務(wù)分解與反思

現(xiàn)在的 Agent 只是一個(gè)規(guī)劃器，它負(fù)責(zé)做規(guī)劃。但實(shí)際上，這個(gè)流程中還存在很多未明確的問(wèn)題，比如是否存在一個(gè)內(nèi)部加工過(guò)程，以及這個(gè)過(guò)程是否透明可控等。

類比我們?nèi)祟愃伎嫉倪^(guò)程，人腦有兩套系統(tǒng)，系統(tǒng)1和系統(tǒng)2。系統(tǒng)1是快思考，出自于人類天生的本能，思考時(shí)間快，消耗能量少。系統(tǒng)2是慢思考，人類的邏輯能力、推理能力和歸納能力，皆是出自于系統(tǒng)2，而且系統(tǒng)2思考時(shí)間慢，消耗能量大。系統(tǒng)2的能力大多數(shù)都是人類后天習(xí)得的，但是經(jīng)過(guò)不斷地刻意練習(xí)后，一部分能力也能由系統(tǒng)2轉(zhuǎn)移到系統(tǒng)1，由慢思考變?yōu)榭焖伎肌?/p>

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

對(duì)于任務(wù)分別的難題，一種可能的解決辦法是將內(nèi)部加工過(guò)程外部化，用系統(tǒng)2包裹起來(lái)，使每一步細(xì)粒度的思考都可以展現(xiàn)出來(lái)。但是具體如何用系統(tǒng)2進(jìn)行包裹，風(fēng)叔也還沒(méi)有具體的思路，需要持續(xù)關(guān)注AI Agent最新的論文和進(jìn)展。

2）記憶優(yōu)化

目前，AI Agent的記憶機(jī)制是把所有的信息，以向量數(shù)據(jù)的方式存儲(chǔ)在歷史記錄里，然后在需要的時(shí)候進(jìn)行召回。這種記憶方式，站在工程化的角度，其實(shí)也比較合理，但是在實(shí)際使用中，會(huì)出現(xiàn)一些問(wèn)題。

首先，歷史記憶會(huì)越積越多，當(dāng)數(shù)據(jù)量到達(dá)一定程度之后，數(shù)據(jù)召回的速率就會(huì)顯著下降，從而影響AI Agent的反應(yīng)速度。其次，在記憶數(shù)據(jù)庫(kù)中，一定會(huì)存在大量的錯(cuò)誤信息，或者不合時(shí)宜的信息，但是AI Agent很難判斷哪些記憶是需要修正的。

人類的記憶其實(shí)是有重塑機(jī)制的，人類在獲得大量相關(guān)的知識(shí)后，不會(huì)簡(jiǎn)單地把它們堆積在腦中，而是通過(guò)海馬體進(jìn)行重整。比如在我們做夢(mèng)時(shí)，大腦會(huì)重新構(gòu)造這些相關(guān)的知識(shí)，使得記憶網(wǎng)絡(luò)變得有序。同時(shí)，人類可以主動(dòng)刪除一些不好的記憶，或者錯(cuò)誤的記憶，比如很多生活中無(wú)關(guān)緊要的信息，人腦就會(huì)逐漸遺忘掉，從而避免記憶負(fù)荷越來(lái)越大。

所以在未來(lái)，AI Agent一定要優(yōu)化記憶系統(tǒng)，不能簡(jiǎn)單的將長(zhǎng)短時(shí)記憶簡(jiǎn)化為向量數(shù)據(jù)庫(kù)。

3） Function Calling準(zhǔn)確性

目前，F(xiàn)unction Calling是AI Agent進(jìn)行工具使用的最主要的手段，可以說(shuō)AI Agent的執(zhí)行能力強(qiáng)依賴于大模型的Function Calling能力。但是目前的Function Calling的準(zhǔn)確性其實(shí)并不理想，表現(xiàn)最好的大模型其準(zhǔn)確率也只有86%。

86%意味著什么？

意味著，目前的AI Agent還只能應(yīng)用在對(duì)準(zhǔn)確率要求不高、有人類進(jìn)行兜底的場(chǎng)景，比如撰寫論文或調(diào)研報(bào)告、智能客服等等。對(duì)于更加嚴(yán)謹(jǐn)?shù)膱?chǎng)景，比如工業(yè)、醫(yī)療、能源，還難以有AI Agent的用武之地。

還意味著，如果AI Agent需要執(zhí)行一連串的任務(wù)，哪怕只有5個(gè)環(huán)節(jié)，整體流程的準(zhǔn)確率將下降到不足30%，即系統(tǒng)不可用。

所以在未來(lái)，AI Agent一定要提升Function Calling的準(zhǔn)確性，或者有更準(zhǔn)確的API調(diào)用方式。只有當(dāng)準(zhǔn)確率達(dá)到99.99%以上時(shí)，AI Agent才能在更為廣闊的工業(yè)界生根發(fā)芽。

4）多模態(tài)與世界模型

除了以上三個(gè)維度之外，還有一個(gè)非常關(guān)鍵的點(diǎn)，即多模態(tài)和世界模型。

在漫長(zhǎng)的進(jìn)化歷史中，生物神經(jīng)網(wǎng)絡(luò)從簡(jiǎn)單的條件反射逐漸進(jìn)化到今天的主動(dòng)預(yù)測(cè)，我們已經(jīng)可以在大腦中構(gòu)建世界模型，進(jìn)行強(qiáng)大的推理和分析。比如當(dāng)我們看到晚霞時(shí)，就會(huì)知道明天大概率是個(gè)晴天；比如當(dāng)我們感知到建筑發(fā)生搖晃時(shí)，就知道很有可能發(fā)生了地震，需要趕緊去一個(gè)安全的地方。

現(xiàn)在的大模型主要是通過(guò)語(yǔ)言進(jìn)行交互，這樣顯然是不夠的。如果要進(jìn)一步理解世界，一定需要多模態(tài)輸入，包括視覺(jué)、聽(tīng)覺(jué)、傳感器等等。因此，未來(lái)的AI Agent一定會(huì)更多和物理實(shí)體相結(jié)合，比如將AI Agent集成進(jìn)入機(jī)器狗，訓(xùn)練其進(jìn)行救援任務(wù)。在這個(gè)過(guò)程中，對(duì)于時(shí)間的認(rèn)知、身體運(yùn)動(dòng)的控制也需要集成到AI Agent里面去。

AI Agent的發(fā)展速度太快了，每個(gè)月甚至每周，都有新的研究成果、新的產(chǎn)品問(wèn)世。我們能做的，就是躬身入局，時(shí)刻關(guān)注大模型和Agent的發(fā)展。

二、5W1H分析框架之Who

接下來(lái)，我們?cè)購(gòu)?#8221;Who”這個(gè)維度拆解一下AI Agent，主要回答AI Agent領(lǐng)域都有哪些核心玩家這一關(guān)鍵問(wèn)題。

風(fēng)叔將從三個(gè)角度來(lái)進(jìn)行拆解：從AI Agent框架本身，從AI Agent的行業(yè)場(chǎng)景，以及從國(guó)內(nèi)AI Agent生態(tài)。

1. 從AI Agent框架本身

下面這張圖來(lái)自風(fēng)險(xiǎn)投資公司Aura Ventures的《自主人工智能體新興市場(chǎng)格局》，按照AI Agent的框架，將整個(gè)Agent產(chǎn)業(yè)自下而上分成了三層：最下面為用于智能體運(yùn)營(yíng)（AgentOps）的模塊插件層，中間為程序應(yīng)用層（Applications），最上面為服務(wù)層（Services）。整個(gè)劃分非常清晰，唯一美中不足的是，這張圖成圖于去年，因此難以揭示目前最新的Agent發(fā)展?fàn)顩r。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

1）AgentOps運(yùn)營(yíng)層

我們先來(lái)看最下面的AgentOps，非常明顯了采用了AI Agent的組成架構(gòu)，即智能（Intelligence，負(fù)責(zé)Planning）、記憶（Memory）、工具使用（Tools & Plugins）。此外，還有多智能體環(huán)境和協(xié)議（Multi-agent playgrounds and protocols）、監(jiān)控/安全和預(yù)算（Monitoring,security and budgetary）、以及智能體運(yùn)營(yíng)市場(chǎng)（AgentOps marketplace）等輔助模塊。

智能（Intelligence）：智能體的“大腦”，背后是LLM大模型，負(fù)責(zé)任務(wù)創(chuàng)建和規(guī)劃，這里我們能看到OpenAI GPT、Claude、HuggingFace等耳熟能詳?shù)拿帧４竽Ｐ唾|(zhì)量、可靠性和成本，將是這部分玩家的制勝關(guān)鍵。
記憶（Memory）：用于獲取、存儲(chǔ)、保留和檢索數(shù)據(jù)，向量數(shù)據(jù)庫(kù)是其中的關(guān)鍵。這里的玩家包括 Pinecone、Chroma以及像Perplexity AI一樣具有集成優(yōu)勢(shì)的Text to SQL 初創(chuàng)公司。記憶容量、讀取速率、尤其是召回準(zhǔn)確率，將是這部分玩家的關(guān)鍵因素。
工具和插件（Tools and plugins）：能夠?yàn)锳gent提供API和技能庫(kù)，用于Agent和外部系統(tǒng)與環(huán)境進(jìn)行交互，例如搜索查詢、發(fā)送郵件等。典型的包括API-Bank、Toolformer、以及部分大模型自帶的function calling能力。
多智能體環(huán)境和協(xié)議：這部分主要用于智能體和智能體的通信協(xié)議，包括PumaMart、SIM Gen Agents和E2B。
監(jiān)控、安全和預(yù)算：這部分主要解決智能體在LLM大模型、通信協(xié)議、安全安保方面的問(wèn)題，也應(yīng)該受到重視，安全是任何場(chǎng)景下使用Agent的前提。
智能體運(yùn)營(yíng)市場(chǎng)：主要用于Agent框架的發(fā)布、開(kāi)源Agent的共享等。這塊最主要的玩家是HuggingFace和Github，還有FinGPT、BabyAGI等開(kāi)源框架。

2） Agent應(yīng)用層

Agent應(yīng)用程序?qū)影ㄍㄓ脩?yīng)用（General purpose）和行業(yè)應(yīng)用（Business industry）

通用應(yīng)用主要偏個(gè)人應(yīng)用場(chǎng)景，比如個(gè)人生活助理、商務(wù)助理、日常工作助理等等。典型的產(chǎn)品包括Embra AI、Adept AI、Cognosys AI。

行業(yè)應(yīng)用主要偏業(yè)務(wù)垂直場(chǎng)景，比如編程、營(yíng)銷、金融、供應(yīng)鏈等等。典型的產(chǎn)品包括Quill AI、Octain AI等等

3）Agent服務(wù)層

Agent服務(wù)層主要包括智能體搭建平臺(tái)和智能體市場(chǎng)。

智能體搭建平臺(tái)是一種低代碼平臺(tái)，支持普通用戶通過(guò)簡(jiǎn)單的配置搭建屬于自己的Agent，大幅降低AI Agent的創(chuàng)建門檻。目前智能體搭建平臺(tái)受到了很多大廠的青睞，因?yàn)榇髲S很難一開(kāi)始基于某些垂類場(chǎng)景開(kāi)發(fā)Agent應(yīng)用，因此智能體搭建平臺(tái)成為最實(shí)際的選擇。比如微軟的Autogen、百度智能體平臺(tái)、字節(jié)Coze、騰訊元器等等。

下圖是字節(jié)Coze的智能體搭建的示意圖，提供了非常豐富的組件，方便用戶通過(guò)拖拉拽的方式快速搭建AI Agent。在后續(xù)文章中，風(fēng)叔還會(huì)專門介紹搭建AI Agent的具體方法。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

很多智能體搭建平臺(tái)也對(duì)外開(kāi)放了Agent市場(chǎng)，使用者將自己搭建的Agent部署上線之后，其他用戶也能搜索并使用。下圖是字節(jié)Coze的Agent市場(chǎng)示例圖。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

2. 從AI Agent行業(yè)場(chǎng)景

E2B出品的這份AI Agent行業(yè)全景圖是相對(duì)比較完整的。整張圖有兩個(gè)維度，第一個(gè)維度是開(kāi)源和閉源，第二個(gè)維度是AI應(yīng)用，包括了Coding、Productivity、General Purpose、HR、Data Analysis、Business Intelligence、Science、Research、Design、Marketing、Finance等細(xì)分領(lǐng)域。

每個(gè)細(xì)分領(lǐng)域具體的玩家就不一一列舉了，大家可以詳細(xì)參考下圖。另外，這張圖是持續(xù)更新的，通過(guò)這個(gè)地址 https://github.com/e2b-dev/awesome-ai-agents，大家就能看到最新的進(jìn)展，以及E2B對(duì)每個(gè)玩家的詳細(xì)介紹。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

3. 國(guó)內(nèi)AIAgent生態(tài)

目前國(guó)內(nèi)的AI Agent發(fā)展也十分迅猛，下圖是甲子光年出品的中國(guó)AI Agent生態(tài)圖譜1.0，將整個(gè)AI Agent行業(yè)分為三層。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

最底層是算力層，包括像阿里云、AWS、華為云這類提供底層GPU算力的云廠商。

中間是平臺(tái)框架層，包括面向企業(yè)業(yè)務(wù)工作流場(chǎng)景的企業(yè)級(jí)AI Agent平臺(tái)，比如釘釘、匯智智能、瀾碼科技。以及面向個(gè)人開(kāi)發(fā)者或普通用戶的AI Agent平臺(tái)，比如百度文心智能體平臺(tái)、阿里ModelScope、字節(jié)扣子等。

最上層是垂直應(yīng)用層，比如專注于金融行業(yè)的Easy Link、招聘行業(yè)的用友和Moka、營(yíng)銷領(lǐng)域的BetterYeah。

對(duì)于普通的創(chuàng)業(yè)者或創(chuàng)業(yè)團(tuán)隊(duì)來(lái)說(shuō)，肯定沒(méi)有足夠的資源投入大模型賽道，但是站在大模型的肩膀上，選擇一個(gè)相對(duì)垂直的領(lǐng)域做AI Agent，服務(wù)于企業(yè)客戶的具體業(yè)務(wù)流程和場(chǎng)景，是更加切實(shí)可行的選擇。

三、5W1H分析框架之Where

AI Agent的發(fā)展正在以前所未有的速度改變我們的生活和工作方式。接下來(lái)我們從行業(yè)視角來(lái)分析一下，在具體的行業(yè)中AI Agent都有哪些可落地的場(chǎng)景。

1. 電商&零售

個(gè)性化推薦系統(tǒng)：將用戶的歷史瀏覽數(shù)據(jù)、購(gòu)買數(shù)據(jù)以及當(dāng)下和AI的上下文數(shù)據(jù)，作為輸入給到AI Agent，Agent自動(dòng)預(yù)測(cè)用戶在未來(lái)對(duì)各類商品的購(gòu)買率，進(jìn)行重排后輸出預(yù)估購(gòu)買率最高的TopN商品，實(shí)現(xiàn)個(gè)性化的產(chǎn)品推薦。
個(gè)性化營(yíng)銷系統(tǒng)：將用戶歷史上在各個(gè)營(yíng)銷渠道的觸達(dá)和點(diǎn)擊數(shù)據(jù)，結(jié)合本次營(yíng)銷活動(dòng)的營(yíng)銷內(nèi)容，作為輸入給到AI Agent，Agent自動(dòng)預(yù)測(cè)每個(gè)用戶在每個(gè)營(yíng)銷渠道（比如短信、外呼、小程序、公眾號(hào)等）的預(yù)估點(diǎn)擊率，從而實(shí)現(xiàn)自動(dòng)化和個(gè)性化的營(yíng)銷活動(dòng)，提高用戶參與度和品牌曝光度。
智能客服：通過(guò)提前構(gòu)建企業(yè)專屬知識(shí)庫(kù)，AI Agent 可以自動(dòng)回答用戶的咨詢，處理訂單問(wèn)題和退貨請(qǐng)求。相比傳統(tǒng)智能客戶，AI Agent可以支持用戶靈活多樣的問(wèn)題，不用局限于傳統(tǒng)的Q&A模板，可以大幅節(jié)省準(zhǔn)備問(wèn)答對(duì)的時(shí)間，提升智能客服的準(zhǔn)確率。
內(nèi)容生成：在電商場(chǎng)景中，經(jīng)常會(huì)涉及到商品封面圖、海報(bào)、商品詳情頁(yè)、營(yíng)銷文案等內(nèi)容的生成。傳統(tǒng)的做法都需要人工拍攝和撰寫，而在AI Agent的助力下，使用者只需要告訴Agent關(guān)鍵詞，比如商品類型、內(nèi)容形態(tài)、內(nèi)容主題和風(fēng)格等，AI Agent可以自動(dòng)完成。
需求預(yù)測(cè)：將過(guò)去一段時(shí)間內(nèi)，各個(gè)品類的銷量數(shù)據(jù)、促銷活動(dòng)信息、天氣信息等數(shù)據(jù)，作為輸入給到AI Agent，Agent預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)的銷量，從而幫助企業(yè)提前做好配貨。
庫(kù)存管理：將歷史各個(gè)品類的訂單數(shù)據(jù)，各個(gè)供應(yīng)商的供貨數(shù)據(jù)，比如供貨周期、供貨價(jià)格，作為輸入給到AI Agent，AI Agent預(yù)測(cè)每個(gè)品類的安全庫(kù)存，并在商品庫(kù)存預(yù)警時(shí)，自動(dòng)發(fā)起采購(gòu)流程。
價(jià)格優(yōu)化：AI Agent還可以使用爬蟲工具獲取市場(chǎng)動(dòng)態(tài)、競(jìng)爭(zhēng)對(duì)手定價(jià)和用戶行為，經(jīng)過(guò)數(shù)據(jù)分析后，為電商企業(yè)提供動(dòng)態(tài)定價(jià)建議。這種實(shí)時(shí)的價(jià)格調(diào)整策略有助于最大化利潤(rùn)和競(jìng)爭(zhēng)力。

2. 制造業(yè)

質(zhì)量控制：用攝像頭捕捉生產(chǎn)線上各類零件和成品的圖像，將圖片或視頻傳遞給AI Agent，Agent利用計(jì)算機(jī)視覺(jué)技術(shù)對(duì)圖像進(jìn)行分析，自動(dòng)檢測(cè)產(chǎn)品缺陷。當(dāng)檢測(cè)到存在缺陷的零件時(shí)，可以發(fā)送通知給產(chǎn)線檢查員，甚至可以直接操作機(jī)械臂取出缺陷品。
生產(chǎn)線優(yōu)化：生產(chǎn)線流程是一個(gè)標(biāo)準(zhǔn)的workflow，workflow的每個(gè)環(huán)節(jié)都有明確的步驟、檢查事項(xiàng)和執(zhí)行動(dòng)作。在這個(gè)過(guò)程中，可以利用Agentic Workfow，明確告知Agent要做的事項(xiàng)，將更多過(guò)去需要由人工重復(fù)執(zhí)行的過(guò)程，交給AI Agent，從而提升生產(chǎn)效率。
產(chǎn)品設(shè)計(jì)與開(kāi)發(fā)：AI Agent 可以協(xié)助設(shè)計(jì)師和工程師進(jìn)行產(chǎn)品設(shè)計(jì)，比如設(shè)計(jì)師輸入設(shè)計(jì)和尺寸的要求，AI Agent直接進(jìn)行線稿設(shè)計(jì)；或者設(shè)計(jì)師提供線稿設(shè)計(jì)后，AI Agent輸出渲染效果圖，向設(shè)計(jì)師提供多種設(shè)計(jì)創(chuàng)意，從而縮短產(chǎn)品開(kāi)發(fā)的周期。
能源消耗管理：AI Agent能夠接收機(jī)器或設(shè)備上傳感器的數(shù)據(jù)，例如溫度、電壓、電流等等，和數(shù)據(jù)庫(kù)中正常的設(shè)備運(yùn)行數(shù)據(jù)進(jìn)行比對(duì)，從而對(duì)設(shè)備的運(yùn)行情況進(jìn)行監(jiān)控和預(yù)警。例如，當(dāng)某個(gè)設(shè)備因電源老化出現(xiàn)電壓異常時(shí)，AI Agent可以提早識(shí)別，并預(yù)警給工廠設(shè)備的維修人員。
供應(yīng)鏈管理：和電商行業(yè)的需求預(yù)測(cè)和庫(kù)存優(yōu)化類似，AI Agent可以預(yù)測(cè)產(chǎn)品未來(lái)一段時(shí)間的銷量，同時(shí)根據(jù)歷史訂單和采購(gòu)數(shù)據(jù)預(yù)測(cè)最優(yōu)的安全庫(kù)存，以及通過(guò)預(yù)警機(jī)制進(jìn)行供應(yīng)鏈上下游的協(xié)同，幫助企業(yè)更好地應(yīng)對(duì)市場(chǎng)需求的波動(dòng)和變化。
工藝改進(jìn)：AI Agent 還可以通過(guò)分析生產(chǎn)過(guò)程中的數(shù)據(jù)，比如在不同環(huán)境和參數(shù)下生產(chǎn)出來(lái)的產(chǎn)品的差異性，從而進(jìn)行工藝參數(shù)的優(yōu)化，提升產(chǎn)品質(zhì)量和生產(chǎn)效率

3. 醫(yī)療行業(yè)

疾病預(yù)測(cè)和預(yù)防：通過(guò)歷史積累的患者健康數(shù)據(jù)，比如血糖、血氧、白細(xì)胞、紅細(xì)胞等大量指標(biāo)數(shù)據(jù)，AI Agent可以學(xué)習(xí)到各項(xiàng)指標(biāo)與疾病之間的相關(guān)性，對(duì)于像糖尿病、心臟病等疾病，提前預(yù)測(cè)病人患此類疾病的風(fēng)險(xiǎn)。
藥物研發(fā)：和疾病預(yù)測(cè)類似，AI Agent可以分析既有藥物中的各種化學(xué)和生物成分，結(jié)合每種藥物的藥效，從而預(yù)測(cè)新的化學(xué)和成分組合之后的藥性，加速新藥的發(fā)掘和開(kāi)發(fā)，大幅降低研發(fā)成本和時(shí)間。
智能問(wèn)診服務(wù)：在LLM大模型基礎(chǔ)上，通過(guò)RAG技術(shù)掛載醫(yī)療知識(shí)庫(kù)，將AI Agent訓(xùn)練成為醫(yī)療領(lǐng)域?qū)２?，為患者提?*24小時(shí)的在線醫(yī)療咨詢服務(wù)，根據(jù)患者的問(wèn)題描述，還能提供初步的診斷建議。這樣既可以提升患者的就醫(yī)體驗(yàn)，也能減輕醫(yī)生的工作負(fù)擔(dān)。
醫(yī)療影像分析：通過(guò)機(jī)器視覺(jué)技術(shù)，AI Agent 能夠輔助醫(yī)生分析 X 光、MRI、CT 等醫(yī)療影像，快速識(shí)別出患者是否有異常情況，如腫瘤、肺炎、骨折等，提高診斷的準(zhǔn)確性和效率。
醫(yī)療教育和培訓(xùn)：當(dāng)AI Agent掛載了專門的醫(yī)學(xué)知識(shí)庫(kù)之后，還可以作為醫(yī)療教育的工具。比如AI Agent可以模擬患者向醫(yī)學(xué)院的學(xué)生提問(wèn)，根據(jù)學(xué)生的回答，自動(dòng)分析學(xué)生的學(xué)習(xí)情況，并指出學(xué)生的錯(cuò)誤和不足，并引導(dǎo)學(xué)生進(jìn)行專門的醫(yī)療課程學(xué)習(xí)。

AI Agent在各個(gè)行業(yè)都有非常多的應(yīng)用場(chǎng)景，除了上述介紹的電商、制造、醫(yī)療之外，還包括金融、物流、能源、人資、旅游、教育等等行業(yè)，風(fēng)叔就不在文章里一一贅述了。

風(fēng)叔專門整理了一張行業(yè)應(yīng)用場(chǎng)景的腦圖，感興趣的讀者可以關(guān)注WXGZH“風(fēng)叔云”，回復(fù)“AI Agent應(yīng)用場(chǎng)景”，即可獲取完整的應(yīng)用場(chǎng)景圖。