淺談AI Agent在B端的設(shè)計思路
今年大模型爆發(fā)之后,當(dāng)前的AI技術(shù)仍處于第二代系統(tǒng)階段,尚未達(dá)到AGI水平。在在一些領(lǐng)域上,已經(jīng)可以用AI Agent處理。作為典型應(yīng)用的B端方向,如何設(shè)計符合業(yè)務(wù)需求的 AI Agent ?
隨著AI的快速發(fā)展,各種先進(jìn)的大型模型、產(chǎn)品和工具層出不窮。作為一名B端產(chǎn)品經(jīng)理,我們需要積極擁抱這種變革的AI技術(shù),將其應(yīng)用于我們自身的業(yè)務(wù),以確保企業(yè)的效能不會落后于行業(yè)的發(fā)展。
一般來說,如果企業(yè)沒有自主研發(fā)大型模型,就需要依賴第三方的大型模型能力來開發(fā)AI能力,從而構(gòu)建適用于企業(yè)自身的AI產(chǎn)品或工具。
如下圖所示,常見的大型模型方向包括自然語言處理(NLP)、多模態(tài)(multimodal)和語音識別。大型模型廠商基于特定方向的能力進(jìn)行AI訓(xùn)練,從而使得AI能夠在某些領(lǐng)域上替代人類進(jìn)行“可重復(fù)的”和“可標(biāo)準(zhǔn)化的”任務(wù)。
圖片引用于開放隱私計算的《百模大戰(zhàn)!AI大模型你更看好哪一家?》
為了確定我們業(yè)務(wù)所需的AI能力,我們需要對相應(yīng)的AI模型進(jìn)行調(diào)研,并評估大型模型的輸出能力。我們可以從召回率、準(zhǔn)確率、安全性、可解釋性、穩(wěn)定性、成本和發(fā)展?jié)摿Φ榷鄠€維度對大型模型進(jìn)行評估,以最終選擇適合我們需求的大型模型。關(guān)于這一主題,我在之前的文章中有詳細(xì)介紹如何選擇適合自己的大型模型。
然而,當(dāng)前的AI技術(shù)仍處于第二代系統(tǒng)階段,尚未達(dá)到AGI水平。目前可接入的大型模型仍存在一些問題,主要包括以下幾個方面:
1. AI幻覺:
AI幻覺是指AI在知識記憶、理解能力、訓(xùn)練方式和模型技術(shù)等方面存在的局限性,導(dǎo)致其在輸出結(jié)果時表現(xiàn)不準(zhǔn)確或不可靠。常見的問題包括數(shù)據(jù)偏見和解釋性差。
由于AI幻覺的存在,即使我們期望AI能夠穩(wěn)定輸出可靠的解決方案,仍然會有一定比例的錯誤答案產(chǎn)生。例如,如果AI在某個領(lǐng)域的準(zhǔn)確率為50%,那么在50個答案中會有25個錯誤答案。對于需要高精確度的業(yè)務(wù)來說,AI無法直接應(yīng)用。
2. 答案合規(guī)問題
AI是基于統(tǒng)計學(xué)的結(jié)果預(yù)測,本質(zhì)上缺乏明確的是非判斷能力。因此,在涉及道德、法律等方面的問題上,AI無法進(jìn)行準(zhǔn)確的判斷或甄別,容易給企業(yè)帶來負(fù)面影響。
3. 不夠原生:
目前,AI的交互方式主要是通過輸入-輸出的方式進(jìn)行,用戶輸入內(nèi)容,AI輸出結(jié)果。然而,這種流程并不符合所有業(yè)務(wù)人員的使用習(xí)慣。
以翻譯場景為例,翻譯人員的業(yè)務(wù)流程通常包括以下幾個步驟:
- 確定翻譯需求:確認(rèn)翻譯的源語種、目標(biāo)語種、翻譯風(fēng)格以及不同地區(qū)的文化差異和調(diào)整方案等內(nèi)容。
- 批量執(zhí)行翻譯:翻譯任務(wù)通常涉及多條內(nèi)容,翻譯人員需要在同一時間內(nèi)批量完成處理。
- 校對:翻譯完成后,需要由校對人員進(jìn)行校對,判斷是否符合業(yè)務(wù)需求。
- 修改:如果翻譯結(jié)果不符合需求,則需要進(jìn)行修改。修改完成后,繼續(xù)進(jìn)行翻譯、校對和修改的流程,直到修改通過。
- 交付:將通過校對的內(nèi)容應(yīng)用到業(yè)務(wù)中。
然而,如果要使用AI進(jìn)行翻譯,以節(jié)省人力成本,直接使用大型語言模型的對話輸入交互方式會帶來以下問題:
1)打斷原有工作流程,難以形成使用習(xí)慣:
使用大型語言模型的對話窗口會打斷原有翻譯工作的業(yè)務(wù)流程。原本只需要在翻譯工具或文檔上完成工作,加入大型模型對話后,每個翻譯文本都需要在輸入框上進(jìn)行輸入交互。
2)操作成本增加的上限問題:
大型語言模型存在對話長度的限制,如果翻譯內(nèi)容量很大,就需要分批次進(jìn)行交互,這會增加人力成本。
3)滿足特殊翻譯需求的操作成本增加:
如果存在特定的翻譯需求,比如術(shù)語翻譯或指定翻譯風(fēng)格,每次都需要進(jìn)行交互,這進(jìn)一步占用人力。
以上問題導(dǎo)致AI無法有效提高業(yè)務(wù)的翻譯效率。由于操作繁瑣,用戶很難形成使用習(xí)慣,他們往往會下意識地認(rèn)為直接自己翻譯比使用AI更好,因此替換成本較高。
此外,AI翻譯存在幻覺問題,無法提供超出預(yù)期的用戶體驗(yàn)。
由此,【(新體驗(yàn)-舊體驗(yàn))-替換成本】 并沒有大于0 ,直接使用 AI 的原生的交互方式并不能有效地提高業(yè)務(wù)率,因此需要一些更 native 的方式。
一、什么是AI Agent
基于當(dāng)前人工智能存在的挑戰(zhàn),我們需要思考如何在B端建設(shè)我們自己的應(yīng)用。一種可行的方式是嘗試構(gòu)建專為業(yè)務(wù)定制的AI Agent。
所謂AI Agent,又稱人工智能代理,是指能夠理解、學(xué)習(xí)和執(zhí)行任務(wù)的自動化程序??梢詫⑵浔扔鳛?#8221;將AI視為實(shí)習(xí)生,讓其承擔(dān)瑣事,而我們則負(fù)責(zé)指導(dǎo)這位實(shí)習(xí)生,確保其產(chǎn)出符合預(yù)期的結(jié)果”。
與大型模型不同,AI Agent并非僅通過提示與人進(jìn)行交互。它是基于特定工作目標(biāo),并輸出符合需求結(jié)果的系統(tǒng)。AI Agent的核心是大型模型,同時在此基礎(chǔ)上擴(kuò)展了感知模塊、計劃模塊和行動模塊。
- 感知模塊:感知模塊通過與業(yè)務(wù)數(shù)據(jù)源和外部數(shù)據(jù)源的連接,將數(shù)據(jù)組裝到提示詞中以進(jìn)行輸入。
- 行動模塊:行動模塊可以通過與業(yè)務(wù)能力接口的連接,根據(jù)感知和規(guī)劃的結(jié)果執(zhí)行相應(yīng)的業(yè)務(wù)操作。另外,還可以通過反饋系統(tǒng)將業(yè)務(wù)實(shí)踐中的反饋數(shù)據(jù)與代碼、策略和提示詞進(jìn)行優(yōu)化。
- 規(guī)劃模塊:規(guī)劃模塊是AI Agent的核心。除了利用大型模型的能力外,還需要根據(jù)業(yè)務(wù)需求結(jié)合代碼邏輯進(jìn)行設(shè)計。在這里,我們需要構(gòu)思大腦的運(yùn)作方式,并采用適當(dāng)?shù)妮斎胼敵龇绞絹硗苿訕I(yè)務(wù)。
二、如何設(shè)計AI Agent
那么怎么設(shè)計符合業(yè)務(wù)需求的 AI Agent ?
1. 找到合適的業(yè)務(wù)場景
首先,我們需要確定適合AI Agent 的場景,通過模擬數(shù)據(jù)輸入和收集輸出結(jié)果的方式來評估所選場景的適宜程度。在判斷輸出結(jié)果的同時,需要考察是否符合預(yù)期。若結(jié)果不符合預(yù)期,則需要評估誤差的嚴(yán)重程度,以及準(zhǔn)確率和召回率是否存在改進(jìn)空間。若存在改進(jìn)空間,可以通過優(yōu)化提示詞,或者通過引入感知、行動和規(guī)劃模塊的構(gòu)建,使得AI符合我們的場景需求。
其次,我們可以將業(yè)務(wù)場景進(jìn)行劃分,讓AI僅負(fù)責(zé)適宜的場景,作為業(yè)務(wù)的輔助與補(bǔ)充,即使無法完全覆蓋整個業(yè)務(wù),也能發(fā)揮作用。
2. 梳理輸入和輸出預(yù)期
我們需要明確對于AI Agent的’目標(biāo)’和’要求’,以確定我們輸入什么,Agent需要輸出什么。
基于這些’目標(biāo)’和’要求’,我們應(yīng)該思考如何選擇合適的輸入輸出方式來滿足業(yè)務(wù)需求并為業(yè)務(wù)賦能。這將有助于我們設(shè)計后續(xù)的輸出流程,并在設(shè)計驗(yàn)證階段進(jìn)行評估,以確定是否符合要求。
3. 梳理輸出流程
當(dāng)我們面臨復(fù)雜的輸出要求時,需要設(shè)計多個AI會話流程,以使各個AI之間相互協(xié)作,最終實(shí)現(xiàn)符合要求的輸出結(jié)果。例如,在文本分類場景中,我們可以首先使用3.5版本的大模型進(jìn)行準(zhǔn)確的一級分類,以滿足需求。
由于4.0版本的成本是3.5版本的幾十倍,而3.5版本在一級分類上已經(jīng)足夠使用,因此可以選擇使用3.5版本以節(jié)省成本。接著,我們可以使用4.0版本進(jìn)行二級分類,以獲得更好的分類效果,確保我們輸出所需的內(nèi)容。
在設(shè)計流程時,需要考慮以下幾個因素:
- 成本因素:不同大模型及其版本的費(fèi)用各不相同,我們需要權(quán)衡業(yè)務(wù)收益,選擇一個合理的大模型使用方案,以避免得不償失。
- 效果因素:不同大模型及其版本的效果各有差異,并且在不同領(lǐng)域有其擅長之處。我們需要結(jié)合使用需求,選擇最適合的方案。
綜合考慮成本和效果因素,最終確定一個合適的方案。
4. 輸出檢驗(yàn)機(jī)制
為了避免AI輸出結(jié)果中存在誤導(dǎo)性內(nèi)容對業(yè)務(wù)產(chǎn)生影響,我們需要建立一套有效的驗(yàn)證機(jī)制。常見的驗(yàn)證方法包括詞庫匹配、正則表達(dá)式匹配和人工檢驗(yàn)。通過使用詞庫或人工方式攔截具有誤導(dǎo)性的內(nèi)容。此外,我們還可以構(gòu)建質(zhì)檢Agent,讓AI自身對輸出進(jìn)行質(zhì)檢,以過濾出存在問題的內(nèi)容,提高誤導(dǎo)性內(nèi)容的檢測率。
5. 幻覺兜底方案
幻覺的產(chǎn)生是無法完全根除的現(xiàn)象。為了避免對業(yè)務(wù)造成不良影響,我們需要制定兜底方案,例如:
1)人工檢驗(yàn):在AI輸出傳遞給用戶之前,引入人工檢驗(yàn)環(huán)節(jié)。只有在人工檢驗(yàn)通過后,才將結(jié)果輸出給用戶。這樣一來,我們能夠完美地防止AI幻覺對業(yè)務(wù)產(chǎn)生負(fù)面影響,并且還能夠利用AI的輸出結(jié)果提升效率。然而,這種方法需要人力審核,因此會增加一定的人力成本。
2)合理包裝:考慮到我們是面向B端的AI應(yīng)用,我們可以采用包裝輸出應(yīng)用為“AI助手”等方式,直接向用戶明確表示:“這里的輸出結(jié)果由AI生成,僅供參考”。通過這種方式,我們能夠讓用戶形成合理的心理預(yù)期,避免在出現(xiàn)幻覺輸出時產(chǎn)生不良反應(yīng)。
三、總結(jié)
基于以上思路,我們便可以構(gòu)建B端的翻譯Agent、數(shù)據(jù)分類Agent、智能客服Agent等等業(yè)務(wù)了,當(dāng)然這僅僅是我個人的一些思考,歡迎大家交流討論。
為我投票
我在參加人人都是產(chǎn)品經(jīng)理2023年度評選,希望喜歡我的文章的朋友都能來支持我一下~
點(diǎn)擊下方鏈接進(jìn)入我的個人參選頁面,點(diǎn)擊紅心即可為我投票。
每人每天最多可投30票,投票即可獲得抽獎機(jī)會,抽取書籍、人人都是產(chǎn)品經(jīng)理紀(jì)念周邊&起點(diǎn)課堂會員等好禮哦!
投票傳送門:https://996.pm/7d9yE
專欄作家
檸檬餅干凈又衛(wèi)生,公眾號:檸檬餅干凈又衛(wèi)生,人人都是產(chǎn)品經(jīng)理專欄作家。一名游戲行業(yè)的B端產(chǎn)品,負(fù)責(zé)過游戲行業(yè)內(nèi)CRM 、風(fēng)控、BI、SDK、AI相關(guān)的內(nèi)容,定期輸出個人思考或總結(jié)文章~
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!