AI數(shù)字人,要來搶飯碗了嗎?

傳媒1號
1 評論 2134 瀏覽 1 收藏 17 分鐘

AI數(shù)字人正逐漸從科幻走向現(xiàn)實(shí)。從虛擬偶像到新聞主播,從廣告代言人到企業(yè)培訓(xùn)講師,AI數(shù)字人的應(yīng)用場景越來越廣泛。然而,隨著其技術(shù)的成熟,一個問題也逐漸浮現(xiàn):AI數(shù)字人是否會取代人類的工作?

你印象里的數(shù)字人是什么樣的?

小編第一次見識數(shù)字人,是幾年前《明日之子 第一季》舞臺上的赫茲。一個長得像動漫人物、唱跳動作有點(diǎn)生硬的虛擬偶像。

那時候的數(shù)字人,更多像是秀肌肉的「技術(shù)demo」。有點(diǎn)意思,但也有點(diǎn)假,至少不像是能真正用起來的東西。

這幾年,數(shù)字人伴隨著爭議一路成長:有人迷戀它背后的「科技與狠活」,有人嘲笑它的一眼假、五官僵,甚至直接拿來做段子。但就在這一路謾罵與掌聲的夾雜中,AI數(shù)字人正在以肉眼可見的速度進(jìn)化。尤其是在AI生成內(nèi)容已經(jīng)內(nèi)卷到不能再卷的當(dāng)下,曾一度被資本催熟、又被用戶嫌棄的數(shù)字人技術(shù),正在悄然完成一次從秀場到工地的轉(zhuǎn)型。

一個很典型的信號,是今年2月字節(jié)跳動發(fā)布的OmniHuman-1模型。只需一張照片和一段音頻,就能合成一個會動、會說、能表達(dá)情緒,還能對口型的數(shù)字人視頻,甚至連背景、動作都能自適應(yīng)生成。幾乎同步,Hedra推出的Character-3也展示了在多平臺上的超高適配能力,角色能自然微笑、點(diǎn)頭、眨眼、起伏語調(diào),給人的「類人幻覺」越來越真。

風(fēng)投也嗅到了不一樣的味道。不久前,a16z發(fā)布了一份關(guān)于AI數(shù)字人的行業(yè)報(bào)告,直接給出了一個判斷:底層技術(shù)基本準(zhǔn)備完畢,AI數(shù)字人正邁向爆發(fā)期,有望成為「下一個十億級賽道」。

說白了,這不是「數(shù)字人又回來了」,而是「這回,它真的準(zhǔn)備好了」。

過去十年,我們看著AI從「不會畫畫」進(jìn)化到「秒出插畫」,從「不會說話」躍升到「模仿語氣播報(bào)新聞」。而AI數(shù)字人,是把這些能力捏合成一個「人」,既能動,又能說,還能聽得懂指令和上下文。它可以是你早晨打開電視看到的財(cái)經(jīng)主播,也可能是你品牌廣告里的虛擬代言人,甚至成為公司培訓(xùn)中帶你講PPT、講規(guī)章制度的那位「數(shù)字同事」。

但問題來了:技術(shù)準(zhǔn)備好了,應(yīng)用真的準(zhǔn)備好了嗎?

01 為什么說AI數(shù)字人的機(jī)遇來了?

在過去的AI熱潮中,有太多「看起來很強(qiáng)、用起來不香」的技術(shù)。但AI數(shù)字人,正逐漸成為那個真正「能上手、能落地、能賺錢」的例外。a16z最近的報(bào)告直接下了一個判斷:「AI數(shù)字人將成為下一個十億級賽道?!孤犉饋碛悬c(diǎn)大詞,那它到底靠什么撐起這個估值呢?

第一,底層能力確實(shí)發(fā)生了質(zhì)變。

像字節(jié)跳動的OmniHuman-1和Hedra的Character-3是代表性成果。只需要一張照片、一段音頻,系統(tǒng)就能生成動態(tài)背景+口型對齊+肢體動作協(xié)調(diào)的完整AI視頻。數(shù)字人不僅能「說話」,還會「點(diǎn)頭微笑」「眨眼轉(zhuǎn)身」「識別語義調(diào)節(jié)語氣」。這意味著它們已經(jīng)大幅度穿過了「恐怖谷」,具備了真正的視覺與行為仿真能力。

第二,模塊打通,形成「全鏈協(xié)同」的生成閉環(huán)。

過去的AI數(shù)字人只是「人臉生成器」,現(xiàn)在則是一個完整的內(nèi)容協(xié)作系統(tǒng):唇形同步、情緒識別、語音合成、動作邏輯、背景適配等技術(shù)模塊,已經(jīng)能夠標(biāo)準(zhǔn)化協(xié)同工作。像負(fù)責(zé)合成聲音的技術(shù)公司、做實(shí)時傳輸?shù)暮笈_系統(tǒng),以及能自動生成虛擬人的平臺,現(xiàn)在都在「對接接口、打通系統(tǒng)」。原來一個視頻從配音到動畫、再到剪輯要靠好幾個人配合、反復(fù)溝通?,F(xiàn)在這些技術(shù)可以串聯(lián)起來,變成一套自動化流程,普通人也能一站式搞定。

第三,應(yīng)用場景正在「剛需化」。

過去企業(yè)用AI數(shù)字人是「試試看」,現(xiàn)在已經(jīng)變成了「必須用」。目前,很多場景需求已經(jīng)到了臨界點(diǎn),但人力供給卻常常掉隊(duì)。比如廣告、電商、教育、政務(wù)等行業(yè),對標(biāo)準(zhǔn)化視頻內(nèi)容的需求暴漲,但真人拍攝的成本和效率已遠(yuǎn)遠(yuǎn)跟不上。數(shù)字人恰好填補(bǔ)了這個缺口,它像流水線上的機(jī)器人一樣,高效、穩(wěn)定、成本低。

從「科技圈炫技」走到「行業(yè)里干活」,這條路徑并不陌生。AI數(shù)字人正在經(jīng)歷的,其實(shí)正是過去幾年AIGC(文生圖、文生視頻)已經(jīng)跑通的那條路。但也正是因?yàn)樗雌饋怼附K于能用了」,我們才必須問——現(xiàn)在真的適合讓它「上場」了嗎?它離大規(guī)模實(shí)用還有多少路?

這就不是模型的事了,而是場景的事,是人性的事。

02 AI數(shù)字人到底發(fā)展到了哪一步?

目前來看,大部分主流的AI數(shù)字人技術(shù)路徑可以歸結(jié)為三類:

第一種是輕量化合成路線,

以文字驅(qū)動的2D虛擬人,適用于低成本口播視頻和模板化內(nèi)容,典型代表如HeyGen、Synthesia。

第二種是中等擬真度+語音驅(qū)動路線,

融合TTS(文字轉(zhuǎn)語音)、唇形同步與基礎(chǔ)動作匹配,能實(shí)現(xiàn)「說話頭像」的效果,主流社媒平臺上已大量使用,尤其適合「知識類短視頻」。

第三種是高保真擬人路線,

3D建模+面部捕捉+神經(jīng)渲染,強(qiáng)調(diào)「像真人一樣思考和互動」,比如字節(jié)跳動的OmniHuman-1、Hedra的Character-3等,具備整合視聽動作的能力,朝「虛擬演說者」演化。

但熱鬧歸熱鬧,國內(nèi)真正能用到生產(chǎn)環(huán)節(jié)里的,目前其實(shí)只有少數(shù)幾個場景:

首先,是內(nèi)容快消領(lǐng)域。比如AI主播、講解員、短視頻腳本自動化生成、教學(xué)類內(nèi)容錄制等。優(yōu)點(diǎn)是便宜、省時、不出錯,缺點(diǎn)是重復(fù)性強(qiáng)、情緒表達(dá)弱。

其次,是品牌宣傳與廣告演示。可以用數(shù)字人代言產(chǎn)品、講品牌故事,甚至在電商平臺掛直播。但從廣告公司的反饋來看,客戶最在意的不是技術(shù)炫不炫,而是觀眾信不信、內(nèi)容轉(zhuǎn)化率高不高。

此外,還有企業(yè)培訓(xùn)與演示。這是目前增長最快的落地場景。從入職培訓(xùn)到銷售話術(shù),AI數(shù)字人幫企業(yè)節(jié)約了大量拍攝與人力成本。配合多語種翻譯和知識圖譜,還能實(shí)現(xiàn)「全球化復(fù)制」。

至于傳媒行業(yè)、影視創(chuàng)作、互動娛樂等高情緒場景,目前還處在「小試牛刀」的階段。許多AI生成的人物雖然口型對了、節(jié)奏對了,但依然做不到「講一個動人故事」或「帶來一個觀點(diǎn)沖擊」。

這或許正是當(dāng)下最清晰的分野:AI數(shù)字人能替人說話,尚不能替人思考;能完成任務(wù),卻還難以建立連接。

在寫這篇文章的時候,小編還去采訪了身邊的一家數(shù)字人創(chuàng)業(yè)公司,優(yōu)鏈時代。針對目前的行業(yè)現(xiàn)狀,他們非常巧妙地選擇了另一個方向:不做卡通風(fēng)的合成形象,而是通過高精度3D掃描技術(shù),快速生成真人數(shù)字分身,用于文旅講解、虛擬發(fā)布會、在線教育。這種「高擬真+強(qiáng)定制」的路徑,本質(zhì)上是在滿足「場景信任感」的剛需——尤其是在「人設(shè)可信」遠(yuǎn)比「技術(shù)酷炫」更重要的場合。他們的底層判斷很簡單:技術(shù)卷得再快,最終決定AI數(shù)字人有沒有用的,還是場景和人性。

03 定制的完美打工人,廣告主用著「省心」嗎?

說完發(fā)展,再看看當(dāng)下AI數(shù)字人最實(shí)際的一個應(yīng)用場景,廣告。

在很多廣告人眼中,AI數(shù)字人乍一看簡直是為營銷而生的「理想員工」。

它標(biāo)準(zhǔn)化、可控、不鬧情緒,也沒有人設(shè)崩塌風(fēng)險。今天是極簡科技感的白皮書女主播,明天就能變成潮牌感十足的Z世代男孩。穿什么、說什么、怎么笑,全憑你設(shè)定。出錯了?刪稿、重制、一鍵回爐即可。

但真到了實(shí)際投放里,情況卻沒有這么「美夢照進(jìn)現(xiàn)實(shí)」。

「目前最適合數(shù)字人的場景,是高頻、重復(fù)、需要大量標(biāo)準(zhǔn)化內(nèi)容輸出的營銷動作。」十相宜創(chuàng)始人、《傳媒1號》首席營銷顧問王凱英跟我們介紹道。

比如一款產(chǎn)品,你不可能拍100支真人口播,但用數(shù)字人合成可以;又或者品牌想做“科技感”展示,AI主播確實(shí)加分。但要是到了真正講故事、拉近情感距離的環(huán)節(jié),數(shù)字人就容易掉鏈子。

AI主播最大的問題,是信任感和氛圍感方面,有待提高。

尤其在當(dāng)下「內(nèi)容即社交」的語境中,品牌與用戶之間的關(guān)系,本質(zhì)上是建立在人與人之間的「信任關(guān)系」上的。而絕大多數(shù)AI數(shù)字人,哪怕外觀仿真、語音真實(shí),但觀眾刷個三秒后,仍然很快就能識破這是一張「AI臉」。這種「類人但不夠人」的尷尬,很容易讓品牌花了錢,卻沒討好觀眾。

更別說,在現(xiàn)實(shí)操作中,創(chuàng)意團(tuán)隊(duì)和AI技術(shù)團(tuán)隊(duì)之間的溝通成本,比傳統(tǒng)拍攝反而更高。

你想讓數(shù)字人「微笑著眨眼說出這句話」,這不是動動嘴皮的事。你得調(diào)參數(shù)、試口型、配光線、導(dǎo)出素材、反復(fù)預(yù)覽。很多時候,最后還不如找個真人一條過。

甚至連IP運(yùn)營也成了難題。許多品牌原本指望打造一個虛擬代言人,長期陪跑,結(jié)果發(fā)現(xiàn)這些數(shù)字人熱度來得快,去得也快。沒有性格弧線、沒有互動機(jī)制、沒有故事背景,僅靠一張臉和幾個pose,根本撐不起一個「品牌人格」。

針對「品牌人格」這個話題,王凱英說:「真人網(wǎng)紅需要有故事,有真實(shí)的內(nèi)核,并且明確是和品牌長期綁定發(fā)展的。舉個比較成功的數(shù)字人例子,蜜雪冰城雪王。這個IP他們做了很長線、人感的運(yùn)營。公司上市的時候也被請到現(xiàn)場,真的像一個代言人一樣參與公司的大小事情,也走在一線,和消費(fèi)者互動。比如近期云南潑水節(jié),也有雪王的身影。社交媒體的積極互動,調(diào)侃、逗趣、愛湊熱鬧,專屬的配飾,不同場合的變裝等等。」

王凱英還總結(jié)道:「對于品牌如何用好數(shù)字人,這個需要品牌自己想清楚,為什么做這個,想要獲得什么?如果只是短時間有一個便宜好用,不會有負(fù)面的代言人,那這個代言的效果肯定人感要差一點(diǎn)。」

所以,盡管AI數(shù)字人在廣告行業(yè)的存在感越來越高,但它仍然只是一種「效率工具」,遠(yuǎn)沒有達(dá)到「情感代言人」的角色。

歸根到底,廣告講的不只是產(chǎn)品,還有人——人設(shè)、情緒、表達(dá)、共鳴。而這,恰恰是當(dāng)下AI數(shù)字人暫時做不到的。

04 傳媒行業(yè)能不能用上數(shù)字人?怎么用?

再說回AI數(shù)字人對傳媒領(lǐng)域的影響。

對于傳媒行業(yè)來說,AI數(shù)字人從來不是一個「能不能提高效率」的問題,而是一個「誰還在說話」的問題。

它不是一個換掉剪輯師的AIGC工具,也不是一個替主播省口播的語音模型,而是一個可能替代表達(dá)者本身的存在——主持人、記者、講述者、內(nèi)容人。也正因如此,它來得格外敏感。

這兩年,很多媒體都在試水AI數(shù)字人。新華社、人民網(wǎng)等平臺相繼推出了自己的AI主播,連很多本地電視臺也紛紛上馬「虛擬主持人」。從技術(shù)角度看,它們的「播報(bào)準(zhǔn)確率」「語音語調(diào)」「表情匹配度」都在逐步提高;但從觀眾感知來看,數(shù)字人還是難以很快替代人的「溫度」。

這是AI數(shù)字人眼下在傳媒行業(yè)最根本的短板。它可以傳遞信息,但還不能傳遞觀點(diǎn);可以生成內(nèi)容,但很難生成立場。

內(nèi)容行業(yè)的本質(zhì),從來不是「告訴你一個事實(shí)」,而是「帶你看一個世界」。這需要的不只是讀稿,還要「判斷力、感受力和風(fēng)格」而這恰恰是人類內(nèi)容人的看家本事。

我們也可以反過來看。AI數(shù)字人其實(shí)更適合的是那些「信息性強(qiáng)+結(jié)構(gòu)穩(wěn)定」的內(nèi)容場景,比如快速新聞播報(bào)(不涉及深度采訪與觀點(diǎn))、多語種同傳主播(適合國際會議、跨境電商)、企業(yè)PR口播(不需要態(tài)度,只需要標(biāo)準(zhǔn)化輸出);但它難以勝任的是,情緒張力強(qiáng)的長對話(如人物專訪),強(qiáng)調(diào)視角和語氣的專欄類表達(dá),以及需要「說話人身份」來承擔(dān)社會意義的表達(dá),比如主播控訴、記者追問、作者自白等等。

結(jié)語

某種程度上,我們可以說,AI數(shù)字人可以「表演一個記者」,但它永遠(yuǎn)不會「成為一個記者」。

隨著AI數(shù)字人的突飛猛進(jìn),未來的內(nèi)容人也許不會被替代,但一定會被「重構(gòu)」。他們可能不再出鏡講故事,但要負(fù)責(zé)「喂養(yǎng)」數(shù)字人背后的腳本、語氣、情緒策略;他們可能不再主持節(jié)目,但會成為「數(shù)字人內(nèi)容運(yùn)營官」,操盤整個人設(shè)、臺詞和觀眾互動。

這將是一場內(nèi)容行業(yè)的「角色位移」——從「我就是內(nèi)容」到「我設(shè)定內(nèi)容」。

作者| 葛縵

本文由人人都是產(chǎn)品經(jīng)理作者【傳媒1號】,微信公眾號:【傳媒1號】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. AI數(shù)字人技術(shù)正迅速發(fā)展,應(yīng)用場景不斷拓展,從廣告到教育再到傳媒,但挑戰(zhàn)也不可忽視,未來內(nèi)容人或面臨角色轉(zhuǎn)變。

    來自山東 回復(fù)