AI動漫視頻工具1.0—探索全新內(nèi)容創(chuàng)作設(shè)計理念與實現(xiàn)策略
本次為大家分享創(chuàng)作工具「度加」賦能AI動漫視頻應(yīng)用中,在定制化模型供給、多視角鏡頭控制、臨場感音頻合成等方面沉淀的創(chuàng)新經(jīng)驗,進而有效提升AI動漫視頻內(nèi)容的品質(zhì)感和氛圍帶入感。
一、項目背景
AI動漫視頻是AIGC的熱門賽道之一,目前市面上許多動漫領(lǐng)域核心玩家均布局或已啟動AIGC動漫內(nèi)容生產(chǎn)。我們希望為有意向進行AIGC領(lǐng)域創(chuàng)作的PUGC創(chuàng)作者提供便捷的渠道及工具,通過孵化一批獨家的AIGC動漫原創(chuàng)作者,入局動漫創(chuàng)作行業(yè)核心圈,為平臺供給大量差異化原創(chuàng)內(nèi)容。
1. 行業(yè)洞察
通過對AI動漫視頻行業(yè)進行深入調(diào)研洞察,我們發(fā)現(xiàn)其具有以下特點:
- 隨著小說推文行業(yè)規(guī)模擴大,代理機構(gòu)及推文KOC達人賬號迅速增長,AI動漫視頻訂單規(guī)模不斷擴張。
- 在小說推文用戶群中,18-23歲的年輕人和女性用戶居多,著眼于抖音小說推文指數(shù),用戶逐漸增加,且有逐漸“破圈”的趨勢。
- 目前小說推文KOC達人的用戶畫像,集中在女性學(xué)生和寶媽群體,表明女性達人對于小說內(nèi)容的理解更為透徹。
2. 用戶痛點
同時我們發(fā)現(xiàn),目前用戶使用AI動漫視頻產(chǎn)品時的痛點主要集中在以下幾個方面:
1)文本內(nèi)容識別不準確
畫面識別和文字匹配度不高,導(dǎo)致適配內(nèi)容畫面表現(xiàn)出現(xiàn)偏差,影響視頻效果。?
2)圖像不受控制
不能保證同一人物在不同分鏡下的妝造一致,同個人物的服飾、發(fā)型等會發(fā)生變化,影響畫面內(nèi)容的連貫性。?
3)風(fēng)格匹配度不高
AI動漫視頻會存在較強的“機器感”,人物和場景風(fēng)格未必和漫畫風(fēng)格匹配。?
4)動態(tài)效果生硬
AI動漫視頻終端交付內(nèi)容動態(tài)不連貫,轉(zhuǎn)場效果很像PPT。
3. 設(shè)計理念
基于此,我們對產(chǎn)品落地進行細致規(guī)劃,將模型驅(qū)動AI動漫視頻能力落地「度加」創(chuàng)作工具,跑通從文章識別到視頻合成的完整流程,確保基礎(chǔ)功能落地。從文本轉(zhuǎn)化、畫面控制、動態(tài)能力等多方面調(diào)優(yōu),對標高質(zhì)量視頻要求,持續(xù)打磨工作流,支撐生態(tài)向高質(zhì)量內(nèi)容轉(zhuǎn)型。
1)優(yōu)質(zhì)視頻內(nèi)容促分發(fā)、提時長
我們持續(xù)打磨設(shè)計工作流,力求使自動生產(chǎn)質(zhì)量達到動漫視頻基線。
2)高效工具建立內(nèi)容創(chuàng)作優(yōu)勢
設(shè)計創(chuàng)新提升工具控制范圍和能力,保證輔助生產(chǎn)質(zhì)量追齊專業(yè)動漫視頻水平。
二、搭建視頻生成流程
通過不斷打磨優(yōu)化,我們搭建了一套完整的視頻生成流程:設(shè)置基礎(chǔ)信息及視頻參數(shù)→上傳文本→角色/場景提煉(可重新生成至符合預(yù)期)→生成旁白及分鏡(可進行編輯或重新生成至符合預(yù)期)→生成視頻。
三、聚類定制化風(fēng)格模型
1. 七大類別模型
選型為了使生成效果更加適配漫畫內(nèi)容,解決風(fēng)格匹配度不高的問題,我們對市面上的熱門漫畫題材進行了分析,根據(jù)其內(nèi)容進行了分類梳理。共梳理出七大類別:都市現(xiàn)代、武俠仙俠、奇幻魔幻、恐怖懸疑、科幻賽博、末日廢土、兒童繪本。通過對類別內(nèi)容的判斷,選擇能表現(xiàn)其內(nèi)容特色的風(fēng)格模型。
為增加模型的可選擇性,每個類別下選擇2套模型進行適配,同時增加通用模型,保證內(nèi)容品質(zhì)及風(fēng)格效果的全方面覆蓋。
2. 模型選型標準
1)內(nèi)容準確
目前使用的底模均為基于Stable Diffusion 1.5底模訓(xùn)練出來的模型。通用模型和垂直模型的區(qū)別在于,通用模型需要具備比較廣泛的通用的內(nèi)容識別能力,盡可能覆蓋熱門題材。例如DarkSushiMix這個模型,在熱門的都市和仙俠等題材中,均可以識別小說分鏡描述的內(nèi)容,生成符合預(yù)期的畫面,可以作為通用模型使用。
2)風(fēng)格契合
垂直模型更具有針對性,部分小說內(nèi)容具有強烈的特色風(fēng)格,在模型選擇中,除了對于文本內(nèi)容的識別,需要具備符合小說特色的風(fēng)格效果。這時除了篩選適合的底模以外,還可以使用底模+LoRA模型的方式,一方面保證畫面識別,另一方面滿足風(fēng)格需要。
在進行了大量評測組合后,我們選擇出適合7大類別的模型搭配。例如在兒童繪本類別下,適配了童趣和國風(fēng)兩種風(fēng)格。通用的底模雖然可以將畫面內(nèi)容呈現(xiàn)出來,但是風(fēng)格上與兒童繪本差異較大,會導(dǎo)致觀感上與小說本身產(chǎn)生差異,模型適配準確后,就可以生成符合預(yù)期的畫面效果了。
3)畫面美觀
畫面美觀包含內(nèi)容準確、風(fēng)格契合、人物畫面無崩壞等多個方面。內(nèi)容準確與風(fēng)格契合在上面進行了總結(jié),關(guān)于人物畫面的實現(xiàn)效果上,AI生圖在尺寸較小的情況下會出現(xiàn)部分Bug,主要受到影響的是面部清晰度。
因此,我們選擇使用Adetailer插件進行面部修復(fù),保證人物的清晰美觀。
四、多視角鏡頭控制畫面
在工具初建階段,重點采用Prompt控制鏡頭視角的多樣性。我們測試了大量鏡頭視角描述詞在不同模型及內(nèi)容描述下的效果,總結(jié)出5個效果識別顯著的詞匯:Close-up(特寫)、From below(仰視)、Top view(俯視)、Front view(正視角)、From side(側(cè)視角)。
鏡頭視角描述詞根據(jù)策略隨機適配,避免連續(xù)出現(xiàn)相近視角的畫面,確保畫面構(gòu)圖的豐富度。
五、多尺寸及轉(zhuǎn)場增強畫面豐富度
1. 規(guī)范制定
我們制定了比例和尺寸兩方面的規(guī)范。??
- 比例設(shè)定:設(shè)定「16:9、9:16、4:3、3:4」4套生圖比例,選擇4個識別度高的字體匹配4套比例,滿足用戶對視頻橫板和豎版的不同要求。?
- 生圖及視頻尺寸:為保證較快的生圖速度,生圖過程中,先使用較小的生圖尺寸,再通過超分擴大圖片保證畫質(zhì)清晰度,同時對畫面在視頻中的范圍及尺寸進行規(guī)范。以16:9為例,在該比例下,生圖尺寸若與視頻尺寸一致,畫面過長,AI生圖會出現(xiàn)相對不可控的情況。經(jīng)過多輪測試評估發(fā)現(xiàn),將畫面尺寸控制在4:3的范圍內(nèi)效果最佳,16:9的高清視頻尺寸為1920×1080,所以畫面的部分生圖使用了684×512(4:3)的尺寸,再通過超分擴展為1440×1080(4:3)。
2. 運鏡轉(zhuǎn)場
為避免視頻有類似PPT切換圖片的感受,增加運鏡和轉(zhuǎn)場,運鏡主要為上移、下移、放大,轉(zhuǎn)場設(shè)計了下滑、右滑、位移、旋轉(zhuǎn)等8個效果。
六、多音頻選擇提升臨場感
1. 基礎(chǔ)能力
我們使用度加TTS旁白與端內(nèi)音樂進行合成,音色及背景音樂提供多個種類選擇,音量、語速均可調(diào)整,保證音頻與畫面的最佳契合度。
2. AI音視頻賦能內(nèi)容生產(chǎn)
Meta正式開源了一款名為AudioCraft的AI音頻和音樂生成工具,該工具可以直接從文本描述和參考音樂生成高質(zhì)量的音頻和音樂。AudioCraft包含MusicGen、AudioGen和EnCodec三個模型,分別實現(xiàn)音樂生成、音頻生成和自定義音頻模型構(gòu)建。我們不斷探索音頻模型的內(nèi)容供給,規(guī)劃AI音效庫建立模式,為素材供給擴展可能性。
下期預(yù)告
本篇內(nèi)容主要為AI動漫視頻工具的基礎(chǔ)能力搭建,概述了我們在模型供給、畫面控制、規(guī)范制定、音頻合成等多個方面如何進行調(diào)優(yōu),以滿足產(chǎn)品功能。
在未來的工具2.0迭代中,我們還將從文本轉(zhuǎn)化、畫面控制、動態(tài)生成能力等方面入手,全面提升視頻品質(zhì)。此外,我們還會通過對多項AI能力的探索,衍生短劇、預(yù)告片生成能力,打造AI生視頻領(lǐng)域頭部產(chǎn)品。大家敬請期待吧~
感謝閱讀,以上內(nèi)容均由百度MEUX團隊原創(chuàng)設(shè)計,以及百度MEUX版權(quán)所有,轉(zhuǎn)載請注明出處,違者必究,謝謝您的合作。
本文由人人都是產(chǎn)品經(jīng)理作者【百度MEUX】,微信公眾號:【百度MEUX】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
感覺很不錯啊