大模型下半場,AI Agent 的里子和面子
大模型發(fā)展到現(xiàn)在,大家都開始比拼AI應(yīng)用和AI Agent了。而作者的觀點(diǎn)是:AI Agent 將是下一個超級平臺。這話怎么說起?請看作者的分析。
刺客甲:
陛下,我們也是人啊。
麥克白:
是啊,說起來,你們也算是人,正像家狗、野狗、獵狗、叭兒狗、獅子狗、雜種狗、癩皮狗,統(tǒng)稱為狗一樣。
——引自威廉·莎士比亞《麥克白》
一、AI Agent 將是下一個超級平臺
緩慢的生物進(jìn)化和急速的科技進(jìn)化
宇宙大爆炸距今138億年,宇宙元老星系銀河系有130億壽命,距今約5萬年到10萬年間智人遷移出非洲大陸,從此科技發(fā)展進(jìn)入高速通道。
單獨(dú)來講,生物進(jìn)化是狹隘和緩慢的,達(dá)爾文的進(jìn)化論進(jìn)化不出無線電、電磁波、火車和手機(jī)。
而科技延展了宇宙進(jìn)化的圈層,優(yōu)秀的AI Agent是科技未來新的交互形式。
2023年11月9日,比爾蓋茨在其個人博客中,《人工智能即將徹底改變你使用計(jì)算機(jī)的方式》一文中說,:
“Android、iOS 和 Windows 都是平臺。AI Agent 將是下一個平臺?!?/p>
正如本文開頭中所提,麥克白回復(fù)的一樣,狗有很多種,也會各種不的AI Agent。
AI大模型的發(fā)散性大于精確性,而AI Agent相反
大模型的一直的詬病是會出現(xiàn)“幻覺”,前不久,OpenAI首席執(zhí)行官薩姆·奧特曼在比爾·蓋茨在個人播客《為我解惑》說:
“GPT模型的幻覺是一個特性,而不是缺陷,它能讓你發(fā)現(xiàn)一些新事物?!?/p>
很有哲學(xué)上否定之否定的味道。
可以把大模型幻覺理解成“猜想”,而猜想的發(fā)散性,是科技范式轉(zhuǎn)移的核心關(guān)鍵。
哲學(xué)家卡爾波普爾對“猜想”的哲學(xué)解釋是:“創(chuàng)造性批評和創(chuàng)造性猜想交織在一起,是人類學(xué)習(xí)彼此行為,包括語言,并從彼此話語中提取意義的方式”。
可以說,沒有大模型的幻覺,就沒有發(fā)展可言。
而AI Agent 更要求精確性。
比如我想要一個給我規(guī)劃行程的Agent,或是某個行業(yè)的最新資訊和報(bào)告,幻覺就真的是缺陷。
但當(dāng)下,即使在ChatGpt的GPTs應(yīng)用或是字節(jié)的Coze平臺,你會發(fā)現(xiàn)很少有真正可用的,更好解決問題的Agent。
所以,AI Agent會只是一時的泡沫么?
二、開發(fā)AI Agent猶如造人
神話里的女媧造人很簡單,用泥巴捏一捏就出現(xiàn)了小人,而造一個優(yōu)秀的AI Agent底層會復(fù)雜很多。
合格的Agent應(yīng)該是一個可以可以自主思維和規(guī)劃糾錯的智能體。
描述一個人,可以從外表、性格、年齡、出生背景、學(xué)歷、興趣愛好、思維邏輯、情感處理等等方面去描述。
定義一個AI Agent也相似,不過更多的是隱性的部分。
OpenAI的安全團(tuán)隊(duì)的負(fù)責(zé)人Lilian Weng在其博客,《LLM 支持的自主代理》一文中,用6000字詳細(xì)解釋下AI Agent的組成部分。
AI Agent被定義3個組成部分:規(guī)劃(Planning) 記憶(Memory) 工具使用(Tool Use) 。
規(guī)劃可以理解是思維邏輯,記憶是本身知識儲備,工具使用是對外連接和處理能力。
規(guī)劃
子目標(biāo)和分解:代理將大型任務(wù)分解為更小的、可管理的子目標(biāo),從而能夠有效處理復(fù)雜的任務(wù)。
反思和完善:智能體可以對過去的行為進(jìn)行自我批評和自我反思,從錯誤中吸取教訓(xùn),并針對未來的步驟進(jìn)行完善,從而提高最終結(jié)果的質(zhì)量。
記憶
短期記憶:我認(rèn)為所有的上下文學(xué)習(xí)都是利用模型的短期記憶來學(xué)習(xí)。
長期記憶:這為代理提供了長時間保留和回憶(無限)信息的能力,通常是通過利用外部向量存儲和快速檢索。
工具使用
代理學(xué)習(xí)調(diào)用外部 API 來獲取模型權(quán)重中缺失的額外信息(通常在預(yù)訓(xùn)練后很難更改),包括當(dāng)前信息、代碼執(zhí)行能力、對專有信息源的訪問等。
對照字節(jié)推出的Coze平臺,在創(chuàng)建一個Bot時的任務(wù)界面,可發(fā)現(xiàn)底層邏輯上的一致性:
體驗(yàn)了幾個平臺對比:
從實(shí)際體驗(yàn)上來看,Coze的的功能性是最強(qiáng)的,也是復(fù)雜度最高的,有些部分需要編程的能力,扣子和GPTs相似。
最終效果上,如果從實(shí)現(xiàn)自主規(guī)劃的智能的標(biāo)準(zhǔn)來定義,目前三個平臺都不足以稱得上優(yōu)秀。
Coze的問題在于實(shí)現(xiàn)的復(fù)雜性門檻會阻礙大批的Agent制作者。
扣子的問題在于屬于前期階段,基礎(chǔ)設(shè)施還需要進(jìn)一步規(guī)劃,比如可發(fā)布的平臺,插件的豐富性。
GPTs的問題在于對于實(shí)現(xiàn)復(fù)雜的Agent,缺失的Flow不足以支撐實(shí)現(xiàn),也許Open AI也在規(guī)劃更好的方案,比如基于Flow的自動生成方案?
三、AI Agent要有扎實(shí)的里子和多變的面子
AI Agent = 大模型+規(guī)劃+記憶+工具
前三個是里子,最后的工具是面子。
這里說的面子不是虛假的人設(shè),而是進(jìn)化的多面能力。
大模型的發(fā)展依賴巨頭們的發(fā)展和競爭,不單是軟件層面,硬件層面的芯片也至關(guān)重要。
《芯片戰(zhàn)爭》書中提到臺積電、因特爾、英偉達(dá)、阿斯麥、三星等等廠商的發(fā)展史,非常值得一讀。
最近OpenAI放言斥7萬億美元打造新的芯片帝國,資本的重要性可見一斑。
規(guī)劃依賴兼具產(chǎn)品和編程思維能力的角色的貢獻(xiàn),真的可用的Agent一定不是簡單模塊組合可實(shí)現(xiàn)的,如果有,也只是曇花一現(xiàn)。
定義AI Agent屬于規(guī)劃的一環(huán),也許研究人的生物學(xué)家在這方面會更勝一籌。
記憶依賴優(yōu)質(zhì)的豐富數(shù)據(jù)源和更新迭代和更新機(jī)制,比如我想做一個資訊Agent,如何定義資訊的優(yōu)質(zhì),就需要有科學(xué)的標(biāo)準(zhǔn)范式。
工具依賴平臺的開放性和標(biāo)準(zhǔn)的統(tǒng)一,工具更想人類生活的終生學(xué)習(xí)的能力,一個好的Agent應(yīng)該具有與時俱進(jìn)的能力。
以上要素,缺一不可。
AI大模型催生了Prompt Enginner的工作角色,AI Agent催生了Flow Enginner。
所以AI替代的永遠(yuǎn)都不是人,而是Work。
沒有無緣無故的消失,會有轉(zhuǎn)化和變化。
本文由人人都是產(chǎn)品經(jīng)理作者【麥時】,微信公眾號:【麥時說】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!