【AI agent】熱門智能體應(yīng)用詳細(xì)拆解,手把手教你搭建Ai智能體應(yīng)用

jyc
0 評論 5368 瀏覽 16 收藏 18 分鐘

前幾個月,各個大模型公司都發(fā)布了自己的智能體應(yīng)用。這個智能體降低了AI的使用門檻,而且更有針對性。這篇文章,作者通過幾個案例教大家如何創(chuàng)建自己的智能體應(yīng)用。

一、 智能體簡介

1.1 Dream Story

Dream Story是利用Coze平臺搭建的一款智能體應(yīng)用,可以通過關(guān)鍵詞或簡單的描述生成一段圖文并茂的故事畫本。該應(yīng)用充分的利用了AIGC的文生圖及文生文的能力,將AiGC與實際應(yīng)用場景深度結(jié)合。上架一周即被Coze官方推薦至首頁,日均會話1K+。

我們以此熱門應(yīng)用,來開始今天的Ai agent智能體應(yīng)用拆解。希望讓人人都可以搭建屬于自己的Ai智能體應(yīng)用。

1.2 體驗地址

為了便于您更好的理解和學(xué)習(xí)該應(yīng)用,請先體驗試用后再進(jìn)行深度的研究。

DALLE 3 智能體體驗鏈接地址:

www.coze.com/store/bot/7375114153545187345?bid=6cnmcn3d85g07&from=bots_card&panel=1

二、背景及目的

2.1 需求分析

目前,在小紅書、抖音等各大媒體平臺上,通過AI工具批量生成兒童繪本的案例越來越多。許多博主借此迅速漲粉,并已具備了變現(xiàn)能力,因此我們基于此切入點準(zhǔn)備做一個兒童畫本故事生成的智能體:

2.2 bot功能說明

1. 根據(jù)用戶輸入內(nèi)容擴(kuò)寫故事內(nèi)容

請?zhí)峁┮粋€簡短的故事開頭或主題,我們將根據(jù)此擴(kuò)寫出完整的故事內(nèi)容。

2. 將故事內(nèi)容拆分為5個分鏡內(nèi)容

我們會將擴(kuò)寫后的故事內(nèi)容拆分成5個主要情節(jié)或場景。

3. 將5個分鏡內(nèi)容分別生成關(guān)鍵詞

從每個分鏡內(nèi)容中提取出描述該場景的關(guān)鍵詞。

4. 通過關(guān)鍵詞生成相應(yīng)的圖片

使用關(guān)鍵詞通過DALLE 3和Stable Diffusion生成相應(yīng)的圖片。

2.3 bot效果展示

DALLE 3 智能體

體驗鏈接地址:

Coze: Next-Gen AI Chatbot Developing Platform

www.coze.com/store/bot/7375114153545187345?bid=6cnmcn3d85g07&from=bots_card&panel=1

問題:一位紅衣女俠客在荒涼的戈壁上看到一家客棧

輸出效果:

Stable Diffusion

Bot 鏈接 – Stable Diffusion:

Coze: Next-Gen AI Chatbot Developing Platform

www.coze.com/store/bot/7376115189772648449?panel=1&bid=6cnmeuvqg9g08

問題:一位紅衣女俠客在荒涼的戈壁上看到一家客棧

輸出效果:

三、 應(yīng)用制作詳細(xì)步驟拆解

3.1 創(chuàng)建一個新的Coze項目

創(chuàng)建一個新的Coze項目的步驟如下:

  1. 登錄 Coze
  2. 在左側(cè)導(dǎo)航欄的 My Workspace 區(qū)域,選擇進(jìn)入指定團(tuán)隊
  3. 在頁面頂部進(jìn)入 Plugins 頁面,或進(jìn)入 Bot 編排頁面,在 Plugins 區(qū)域單擊 +
  4. 單擊 Create Bot
  5. 在 Create Bot 對話框,完成配置并單擊 Confirm

3.2 Bot的基本結(jié)構(gòu)

Dream Storybook-DALLE 3主要使用了工作流的方式來實現(xiàn)故事與圖片的生成,具體的實現(xiàn)步驟如下;

3.2.1 bot基礎(chǔ)設(shè)置

  1. 基礎(chǔ)prompt,定義調(diào)用工作流即可
  2. Background image,選擇一個符合場景的圖片
  3. Voices,兒童繪本選擇一個能夠吸引小孩子聲音
  4. 開場白,可以使用markdown的格式放一些生成圖片的效果圖,能夠更好的吸引用戶使用

3.2.2 bot工作流設(shè)置

1、工作流整體結(jié)構(gòu)圖

2、輸入

接收用戶輸入內(nèi)容,用于后面流程分析

3、LLM大模型解析

模型選擇

-建議選擇GPT-4o或GPT 4 Turbo

-由于用戶使用bot時調(diào)用workflow會增加響應(yīng)回復(fù)時長甚至因為工作流較復(fù)雜導(dǎo)致請求超時,如不需要在prompt中處理極其復(fù)雜的邏輯,可優(yōu)先使用GPT-4o

prompt配置

-在工作流中寫prompt與在bot中寫prompt規(guī)則一致

-Dream Storybook-DALLE 3中prompt解析主要分為以下三部分

1)角色定義

你是一個兒童繪本的專家,擅長根據(jù)用戶的簡單描述來創(chuàng)建詳細(xì)且吸引人的故事。

2)流程1:解讀內(nèi)容并生成分鏡

-分析{{input}}內(nèi)容及語言
-創(chuàng)造五個分鏡內(nèi)容,分鏡內(nèi)容包括標(biāo)題、正文
-每個分鏡內(nèi)容為一組數(shù)據(jù),生成的標(biāo)題賦值到title,生成的正文賦值到text
-將title、text翻譯成{{input}}對應(yīng)語言
-將titletext按下方格式嚴(yán)格拼接為一個json字符串到content中輸出
-最終輸出格式示例,僅供參考content:"[ {"title": "title1","text": "text1"},{"title": "title2","text": "text2"},{"title": "title3", "text": "text3"},{"title": "title4","text": "text4"},{"title": "title5","text": "text5"}]"

3)流程2:以分鏡內(nèi)容為基礎(chǔ)生成圖片關(guān)鍵詞

- 將流程1生成的五個分鏡內(nèi)容分別生成五組適用于DALLE 3圖片生成工具的關(guān)鍵詞
- 關(guān)鍵詞包括三部分內(nèi)容:角色描述、場景描述、通用關(guān)鍵詞。
- 對于角色和場景的描述都要盡可能的詳細(xì)
- 如分鏡內(nèi)容中涉及到相同場景或角色描述時相同的部分必須使用相同關(guān)鍵詞
- 與圖片風(fēng)格相關(guān)的關(guān)鍵詞必須使用相同的
- 通用關(guān)鍵詞為默認(rèn)固定值,其默認(rèn)固定值為:dynamic composition、animation aesthetic、children's book illustration、Disney style、in the style ofWalt Disney、fairy tale style、animation aesthetic、peaceful scene、warm lighting、fantasy elements、fantasy scene、dynamic composition、storybook illustration、high detail、hyper quality、masterpiece、highres、cute
- 將五組最終關(guān)鍵詞翻譯成英文詞組,將五組英文詞組作為一個數(shù)組輸出到prompt
格式如下,僅供參考:
prompt:["","","","",""]

output配置(輸出格式如下)

  1. content:存放根據(jù)prompt生成的故事標(biāo)題與正文;輸出格式為string字符串
  2. prompt:存放根據(jù)prompt生成的圖片關(guān)鍵詞;輸出格式為一維數(shù)組

4、code輸出內(nèi)容結(jié)構(gòu)解析

通過代碼的方式解析content內(nèi)容,由字符串轉(zhuǎn)換成二維數(shù)組,見下方

async function main({ params }: Args): Promise<Output> {
    const ret = {
        
        "outputcontent": JSON.parse(params.inputcontent)
    
    };

    return ret;
}

//代碼含義解讀:
params.inputcontent 是一個包含JSON格式字符串的變量,即在LLM大模型解析時生成的title、text。

JSON.parse() 是JavaScript中的一個方法,用于將JSON格式的字符串轉(zhuǎn)換為JavaScript對象outputcontent 是解析后的JavaScript對象,及將input content由一個字符串轉(zhuǎn)換成一個二維數(shù)組所以,"outputcontent": JSON.parse(params.inputcontent) 的作用是將 params.inputcontent 中的JSON字符串解析成JavaScript對象并將其賦值給 outputcontent 變量。

舉個例子,如果 params.inputcontent 的值是 '{ "title": "在森林里跳舞的開始", "text": "小女孩穿著白色的連衣裙,在陽光照射下的森林里快樂地跳舞" }',那么執(zhí)行 JSON.parse(params.inputcontent) ,outputcontent 的值將是一個包含兩個屬性的對象{
    name: "Alice",
    age: 25
}
如果實在理解不了,遇到想要將一個字符串轉(zhuǎn)換為二維數(shù)組的情況,可直接復(fù)制本段代碼將inputcontent與outputcontent替換為對應(yīng)的輸入與輸出即可

5、圖片生成

-添加DALLE 3插件,選擇Batch processing 批量生成,即可一次性生成5張圖片

-如選擇Single time則只會根據(jù)第一條prompt生成一張圖片

6、結(jié)果輸出

最終結(jié)果輸出時我們需要展示給用戶是標(biāo)題分鏡內(nèi)容及對應(yīng)的圖片

1)Selec Mode 可選擇“Answer directly Answer Content(直接使用下方內(nèi)容回復(fù))”

2)固定格式內(nèi)容輸出,可是使用Markdown或html的格式

  • ##二級標(biāo)題
  • * 內(nèi)容 * 正文內(nèi)容使用斜體
  • ![](圖片鏈接) 將圖片鏈接直接展示
  • *** 分割線
## {{outputtext[0].title}}
*{{outputtext[0].text}}*
![]({{outputimage[0].data_structural[0].image_thumb.url}})
 
***
 
## {{outputtext[1].title}}
*{{outputtext[1].text}}*
![]({{outputimage[1].data_structural[0].image_thumb.url}})
 
***
 
## {{outputtext[2].title}}
*{{outputtext[2].text}}*
![]({{outputimage[2].data_structural[0].image_thumb.url}})
 
***
 
## {{outputtext[3].title}}
*{{outputtext[3].text}}*
![]({{outputimage[3].data_structural[0].image_thumb.url}})
 
***
 
## {{outputtext[4].title}}
*{{outputtext[4].text}}*
![]({{outputimage[4].data_structural[0].image_thumb.url}})

四、 常見問題和解決方案

如何在工作流程確定使用插件的參數(shù)及使用規(guī)則

4.1 為什么要知道插件的用法?

為了確保工作流的順利進(jìn)行,插件參數(shù)的輸入需要嚴(yán)格遵循格式要求。因此,在使用大語言模型(LLM)或其他工具時,必須預(yù)先定義好插件所需的參數(shù)格式,以確保插件能夠成功運(yùn)行。

4.2 如何了解插件的用法?

以DALLE 3和Stable Diffusion舉例,可以在coze上找一個功能較全的聊天機(jī)器人,直接提問“stable diffusion 插件參數(shù)及用法”,回答如下,如對某一個參數(shù)有疑問可繼續(xù)展開詢問:

markdown的常見語法

1、我們?nèi)绻胍敵鰞?nèi)容為固定格式需要使用markdown格式,什么是markdown及常見用法可查看下圖

2、該bot中標(biāo)題、分割線、圖片展示等語法

補(bǔ)充stable diffusion 在workflow中調(diào)用方法。

Stable Diffusion的text_prompt格式要求比較嚴(yán)格,需要是數(shù)組格式,此處需要通過代碼方式解析格式,如果沒有代碼基礎(chǔ),可以直接修改參數(shù)值后飲用。

第一步:使用LLM大語言模型解析關(guān)鍵詞格式

注意:大模型存在一定解析失敗的概率

– 最終輸出格式如下,嚴(yán)格拼接為一個json字符串到prompt輸出,最終輸出格式示例,僅供參考:

- 最終輸出格式如下,嚴(yán)格拼接為一個json字符串到prompt輸出
最終輸出格式示例,僅供參考prompt:"[
  {
    "text": "A(0)",
    "weight": 1
  },
  {
    "text": "A(1)",
    "weight": 1
  },
  {
    "text": "A(2)",
    "weight": 1
  },
  {
    "text": "A(3)",
    "weight": 1
  },
  {
    "text": "A(4)",
    "weight": 1
  }
]"
 
 
//prompt輸出參數(shù)名稱,可替換

第二步:代碼解析字符串格式為數(shù)字

生成單張圖片

async function main({ params }: Args): Promise<Output> {

    const ret = {
        "outputprompt": JSON.parse(params.inputprompt),
        "outputtext": JSON.parse(params.inputtext)
    };

    return ret;
}

生成多張圖片

async function main({ params }: Args): Promise<Output> {
    const inputPrompts = JSON.parse(params.inputprompt); // 假設(shè)是一個數(shù)組
    const formattedPrompts = inputPrompts.map(text => ({
        "prompt": [
            text
        ]
    }));

    const ret = {
        "outputprompt": formattedPrompts,
        "outputtext": JSON.parse(params.inputtext)
    };

    return ret;
}

4、 歡迎討論:

生成圖片很難保證一套圖片的角色和畫風(fēng)一致,大家有什么好的解決方案分享么~ (可以通過評論此文檔或者在群聊里溝通哦)

五、如何利用Coze變現(xiàn)

5.1 什么是BlueAD?

BlueAD 是利用生成式人工智能改變營銷和廣告行業(yè)的革命性平臺。它簡單高效。開發(fā)者可以輕松地集成我們的 API,使他們的 GPT 、Coze或其他 AI 軟件從中受益。此外,BlueAD也提供越來越多的廣告形式和策略,以供廣泛應(yīng)用。

5.2 如何通過BlueAD變現(xiàn)?

如果你使用Coze、GPTs等AI Agent平臺,都有能夠商業(yè)變現(xiàn)變現(xiàn)的機(jī)會,例如coze只需要將“BlueAD”插件加入到Bot中獲取接入廣告,你的使用者查看了廣告即可獲得一定比例的收入獎勵,Coze上已經(jīng)有很多高流量的bot已經(jīng)接入了這個插件,有變現(xiàn)需求和興趣的同學(xué)可以試試~

參考資料:AI Agent 智能體榜單

本文由 @jyc 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!