數(shù)字人狂奔600天,還有四大檻
在數(shù)字化浪潮中,AI數(shù)字人技術(shù)正成為企業(yè)創(chuàng)新和效率提升的關(guān)鍵工具。然而,盡管這項(xiàng)技術(shù)在過去600天里取得了顯著進(jìn)展,但它在廣泛應(yīng)用上仍面臨多重挑戰(zhàn)。本文深入探討了AI數(shù)字人技術(shù)當(dāng)前的發(fā)展?fàn)顩r,分析了它在交互能力、企業(yè)應(yīng)用目標(biāo)、成本問題以及市場(chǎng)競爭等方面的四大動(dòng)向,并討論了數(shù)字人技術(shù)如何克服場(chǎng)景、ROI、落地門檻和競爭壁壘等四大門檻。
作為大模型落地的最熱門領(lǐng)域之一,數(shù)字人賽道在過去一年半時(shí)間里快速變動(dòng),并呈現(xiàn)出了四大動(dòng)向:
一方面,大模型技術(shù)驅(qū)動(dòng)下,數(shù)字人的交互能力和用戶體驗(yàn)都有了不小的提升。比如從原來的換嘴式、非實(shí)時(shí)的階段,進(jìn)化到了能驅(qū)動(dòng)全臉的表情,完成簡單的全身動(dòng)作。
其次,企業(yè)應(yīng)用AI數(shù)字人,目標(biāo)也非常明確和務(wù)實(shí),就是要?jiǎng)?chuàng)新業(yè)務(wù)和幫助企業(yè)降本增效。在直播帶貨、數(shù)字人客服、虛擬主播等ROI較好測(cè)算的場(chǎng)景,數(shù)字人產(chǎn)生的價(jià)值最明顯,也在率先實(shí)現(xiàn)落地。
三是,針對(duì)企業(yè)應(yīng)用數(shù)字人普遍面臨的成本高、難落地等問題,廠商們已經(jīng)采取了一系列動(dòng)作,包括降價(jià)、開源以及持續(xù)的產(chǎn)品技術(shù)投入,來降低數(shù)字人應(yīng)用和落地門檻。
而隨著行業(yè)里大小玩家卷技術(shù),卷價(jià)格,同時(shí)數(shù)字人應(yīng)用成巨頭標(biāo)配,競爭也不可避免變得激烈起來。業(yè)界也在形成共識(shí),創(chuàng)業(yè)團(tuán)隊(duì)要走出差異化路線,并盡快實(shí)現(xiàn)自我造血,才有發(fā)展空間。
01 大模型落地的最熱門場(chǎng)景之一
去年下半年以來,廠商們?cè)诩铀偬剿鞔竽P吐涞仄髽I(yè)的合適場(chǎng)景和路徑,數(shù)字人被不少廠商列為了模型落地的先鋒場(chǎng)景。
今年6月,百度智能云在一場(chǎng)內(nèi)部交流會(huì)上提到,3月他們把曦靈數(shù)字人作為大模型落地的7款標(biāo)桿應(yīng)用之一。到6月,數(shù)字人作為3個(gè)重點(diǎn)應(yīng)用之一被再次加碼。他們提到,企業(yè)內(nèi)部知識(shí)管理、客服、營銷這幾個(gè)環(huán)節(jié),是當(dāng)下大模型能幫助企業(yè)增收提效的最佳路徑。
無獨(dú)有偶,上個(gè)月京東言犀數(shù)字人升級(jí)到3.0版本,京東言犀大模型團(tuán)隊(duì)在媒體交流時(shí)提及,數(shù)字人是他們探索大模型落地時(shí)最大的創(chuàng)新應(yīng)用,并且數(shù)字人在大模型與終端交互中占據(jù)重要位置。
“數(shù)字人和智能體、具身智能是未來大模型與終端用戶的核心交互介質(zhì),智能體更偏云端,數(shù)字人更偏端側(cè),具身智能更偏向線下的物理世界?!痹撊耸空f。
螞蟻靈境數(shù)字人團(tuán)隊(duì)相關(guān)人士則看到,數(shù)字人是大模型能力的載體之一,“大模型與數(shù)字人結(jié)合后,具有無需人工干預(yù)的自動(dòng)交互能力,再結(jié)合多模態(tài)交互能力,有助于提升人機(jī)交互體驗(yàn)”。
隨著廠商積極將大模型技術(shù)與數(shù)字人結(jié)合,數(shù)字人在交互能力和用戶體驗(yàn)上也在快速升級(jí),生產(chǎn)成本也大大降低。
“以前是換嘴的那種,非實(shí)時(shí)的,現(xiàn)在可以做到驅(qū)動(dòng)全臉的表情,并且也能做一些簡單的全身動(dòng)作”,中科深智CTO宋健觀察,最近半年2D數(shù)字人與大模型結(jié)合,進(jìn)展非常快。
行業(yè)里此前有一種說法,一些名人的數(shù)字人表現(xiàn)得動(dòng)作單調(diào),且經(jīng)常重復(fù),因?yàn)椴扇×祟悺颁洸ァ边壿?,它只能重?fù)“播放”與提供的視頻物料,例如提供的視頻是坐著的形態(tài),數(shù)字人就沒有其他姿勢(shì)和形態(tài)。
宋健認(rèn)為,在大模型的支撐下,數(shù)字人就會(huì)擺脫這類情況,可以生成更多的動(dòng)作形態(tài)。這個(gè)過程分為兩步,首先是用來自互聯(lián)網(wǎng)的幾千萬、幾億量級(jí)的圖片、視頻等數(shù)據(jù),訓(xùn)練一個(gè)基礎(chǔ)模型。
第二步是把目標(biāo)人物的素材喂給模型,生成與目標(biāo)人物的ID特征、形態(tài)等各方面比較吻合的數(shù)字人?,F(xiàn)在比較熱的多模態(tài)模型跟數(shù)字人結(jié)合,就是干這個(gè)。通過提供的圖片、視頻和語音資料來獲取人物本身的動(dòng)作特征等,生成新的內(nèi)容?!澳壳半A段,要完全實(shí)現(xiàn)這一點(diǎn),也有兩個(gè)難點(diǎn),一個(gè)是成本高,另外生成的內(nèi)容有時(shí)候會(huì)有些幻覺,質(zhì)量有些瑕疵”,宋健說。
大模型加持下,數(shù)字人還在音色、韻律、表達(dá)的豐富程度上都有了比較明顯的提升。
比如在音色方面,京東言犀數(shù)字人團(tuán)隊(duì)介紹,“大模型升級(jí)前,數(shù)字人的直播間說321倒計(jì)時(shí),對(duì)于321突然的節(jié)奏、音調(diào)的變化,數(shù)字人表達(dá)得相對(duì)會(huì)比較機(jī)械,沒有那么自然,現(xiàn)在整體自然很多,變得更像真人?!?/p>
大模型還使得數(shù)字人的生產(chǎn)成本在降低?!耙郧靶枰峤缓荛L時(shí)間的素材,這些素材還要拿回到模型去訓(xùn)練,現(xiàn)在提交的素材變得非常簡單,比如給幾秒鐘的語音,相當(dāng)于Prompt的方式,大模型可以秒級(jí)復(fù)刻,不用拿回模型再訓(xùn)練。”一位數(shù)字人行業(yè)資深人士說。
02 算得清ROI的場(chǎng)景,正率先落地
正如大模型落地到其他場(chǎng)景一樣,企業(yè)對(duì)AI數(shù)字人的應(yīng)用和落地態(tài)度也走向理性。
IDC中國研究經(jīng)理程蔭告訴數(shù)智前線,當(dāng)下,企業(yè)對(duì)于AI數(shù)字人的應(yīng)用主要出于創(chuàng)新業(yè)務(wù)和幫助企業(yè)降本增效考量。當(dāng)前數(shù)字人價(jià)值最明顯的領(lǐng)域在直播帶貨、數(shù)字人客服、虛擬主播等場(chǎng)景,ROI較好測(cè)算。
直播領(lǐng)域也是公眾最熟悉、最熱門的場(chǎng)景。業(yè)界觀察到,目前這個(gè)場(chǎng)景里,平臺(tái)的態(tài)度和政策有明顯差異。
6月騰訊發(fā)布了《視頻號(hào)櫥窗達(dá)人“發(fā)布低質(zhì)量內(nèi)容”實(shí)施細(xì)則》的修訂意見征集通知,修訂后的細(xì)則規(guī)定,在直播過程中存在使用非實(shí)時(shí)直播內(nèi)容或道具代替真實(shí)直播的行為都被視作非真實(shí)直播,屬違規(guī)行為。雖然這是一則修訂意見征集通知,引發(fā)了行業(yè)內(nèi)廣泛討論??焓种笠蔡岢霾粫?huì)對(duì)AIGC輔助創(chuàng)作內(nèi)容給予額外流量扶持。
與之形成鮮明對(duì)比的則是京東這樣的電商平臺(tái)。今年4月,劉強(qiáng)東親自上陣支持?jǐn)?shù)字人,采銷東哥AI數(shù)字人上線后引發(fā)了4000萬人圍觀,到6·18京東還大秀言犀數(shù)字人的直播成績。相比而言,京東對(duì)數(shù)字人直播顯得友好許多。
一位數(shù)字人企業(yè)高管告訴數(shù)智前線,平臺(tái)的態(tài)度差異其實(shí)與平臺(tái)屬性及數(shù)字人當(dāng)下的能力邊界有關(guān)。電商平臺(tái)里,直播最重要的角色是講解商品信息,需要去做的肢體動(dòng)作和任務(wù)相對(duì)而言比較單一。相較而言視頻號(hào)等社交屬性更突出的平臺(tái)里,直播時(shí)人需要去完成的動(dòng)作和任務(wù)會(huì)更為復(fù)雜和多元。
“目前數(shù)字人的技術(shù)去完成商品講解的任務(wù)基本能滿足要求,但是許多大量的娛樂化內(nèi)容,需要去表演去做復(fù)雜的動(dòng)作,數(shù)字人目前還不能勝任?!边@位行業(yè)資深人士認(rèn)為這可能是不同平臺(tái)從平臺(tái)調(diào)性出發(fā),形成差異化態(tài)度的癥結(jié)。
另一家數(shù)字人公司的創(chuàng)始人則認(rèn)為,平臺(tái)公域里流量要算利用效率和成本,質(zhì)量不達(dá)標(biāo)的數(shù)字人直播,流量的利用效率也低,平臺(tái)就很難用公域流量去支持,因此關(guān)鍵還是看數(shù)字人內(nèi)容的質(zhì)量。
不少數(shù)字人廠商已經(jīng)把ROI為正作為吸引更多企業(yè)用戶的賣點(diǎn)。比如特看科技此前告訴數(shù)智前線,目前他們兩款產(chǎn)品,一款從文案到表達(dá)都是AI完成的數(shù)字人,企業(yè)每投入1塊錢,能夠收回2塊錢。另一款真人驅(qū)動(dòng)可以換臉的產(chǎn)品,相比前一類數(shù)字人多了一個(gè)客服講解的人力投入,但總歸企業(yè)投入后能賺錢。
快手在今年WAIC的一場(chǎng)論壇上也提到了客戶使用女媧數(shù)字人平臺(tái),已經(jīng)能拿到相對(duì)確定的結(jié)果。一般行業(yè)內(nèi)真人主播的投入一年至少在55萬以上,還有場(chǎng)地和設(shè)備以及直播的其他人力投入若干。而數(shù)字人相比在3~5萬一年,不需要專門的場(chǎng)地投入,設(shè)備和運(yùn)營投入相比真人主播也大幅降低,但從收益來看,數(shù)字人主播已經(jīng)接近真人主播水平。
可以說,行業(yè)內(nèi)對(duì)當(dāng)下數(shù)字人主播的收益已經(jīng)有相對(duì)理性的認(rèn)知。一方面,大家用數(shù)字人對(duì)標(biāo)的不是頭部的主播,而是超越行業(yè)80%水平的主播。一些數(shù)字人企業(yè)還會(huì)給市場(chǎng)潑冷水,稱數(shù)字人并非靈丹妙藥,那些靠真人都賣不出去的產(chǎn)品,用了數(shù)字人也很難大賣。
除了率先應(yīng)用和落地的直播場(chǎng)景,廠商們也在積極探索將數(shù)字人應(yīng)用到醫(yī)療、政務(wù)、金融、文旅等行業(yè)。不過IDC指出,除了ROI能方便測(cè)算的場(chǎng)景,數(shù)字人帶來的業(yè)務(wù)價(jià)值不好測(cè)算是其應(yīng)用到更廣領(lǐng)域里要面臨的挑戰(zhàn)之一。
03 降低成本和使用門檻是重中之重
AI數(shù)字人快速推進(jìn),廠商們也需要直面和解決新技術(shù)落地遭遇的挑戰(zhàn)。業(yè)界觀察到,除了如何評(píng)估真正帶來的業(yè)務(wù)價(jià)值外,AI數(shù)字人落地還普遍面臨成本、易用性和后期運(yùn)營等多個(gè)層面的挑戰(zhàn)。
一家大模型廠商坦言此前探索數(shù)字人直播應(yīng)用時(shí)踩過一些坑,這里面就包括當(dāng)下數(shù)字人技術(shù)距離真人的表現(xiàn)仍有很大差距,同時(shí)數(shù)字人的使用門檻和成本都不低。廠商們已經(jīng)意識(shí)到問題,并著手解決。
數(shù)字人的易用性,涉及到從生產(chǎn)制作到配置、運(yùn)營的全過程。
生產(chǎn)制作層面,目前行業(yè)解法是從模型著手,提升模型的魯棒性,降低對(duì)數(shù)字人生成所需素材的要求。比如只用提交一張照片,幾秒的語音素材,就能生成數(shù)字人,大量的工作通過后端的技術(shù)和算法搞定。
這也是目前不少廠商在探索的小樣本和零樣本技術(shù)。訓(xùn)練好基礎(chǔ)模型,新的數(shù)字人生成時(shí)不需要再拿到底層模型訓(xùn)練?!爸挥寐犨@個(gè)人講幾秒鐘或幾分鐘,模型就能吐出來相應(yīng)的語料語句。”一位行業(yè)人士說。
廠商們還很重視將數(shù)字人的生成制作、上線過程沉淀到平臺(tái)化的產(chǎn)品里。比如京東言犀數(shù)字人團(tuán)隊(duì)介紹,他們現(xiàn)在新拍攝一個(gè)數(shù)字人的數(shù)據(jù),從數(shù)據(jù)的處理,基于訓(xùn)練效果的調(diào)優(yōu),到模型的上線,以及Demo的制作,完全都能由運(yùn)營來完成?!爱a(chǎn)品化之前還需要很多算法去調(diào),現(xiàn)在完全基于數(shù)字人的平臺(tái)可以完成,這提升了數(shù)字人上新的效率”。
生產(chǎn)完了之后,怎么快速在生產(chǎn)場(chǎng)景配置起來也是企業(yè)關(guān)注的點(diǎn)。比如直播場(chǎng)景里快速搭建直播間,需要數(shù)字人廠商有相應(yīng)的產(chǎn)品和功能去支持。百度曦靈數(shù)字人相關(guān)人士介紹,他們?cè)跀?shù)字人直播場(chǎng)景做了多平臺(tái)覆蓋,可以基于商品自動(dòng)生成直播間,加速產(chǎn)品應(yīng)用。
由于大模型技術(shù)的發(fā)展,目前百度、京東、騰訊、商湯等多家廠商都強(qiáng)調(diào)過數(shù)字人的制作難度和制作周期已經(jīng)有了大幅縮減。
IDC還看到,未來數(shù)字人廠商的服務(wù)模式也很重要。他們聽到很多行業(yè)用戶反饋,在一些直播場(chǎng)景下的AI數(shù)字人廠商不具備代運(yùn)營服務(wù)能力,而企業(yè)自己運(yùn)營起來難度也非常大。因此,目前行業(yè)里已經(jīng)有一些廠商把代運(yùn)營納入到了付費(fèi)服務(wù)中。
產(chǎn)品和技術(shù)之外,行業(yè)里也有人反饋一些數(shù)字人的價(jià)格問題。目前行業(yè)里數(shù)字人的價(jià)格相差比較大,有幾千元一年的產(chǎn)品,也有廠商拿到千萬元級(jí)的大項(xiàng)目。千萬級(jí)的項(xiàng)目可能是一些地方政府做的城市數(shù)字人整套解決方案,包括了硬件,數(shù)字人產(chǎn)品是其中的一個(gè)組件。
也已經(jīng)有廠商從價(jià)格和獲得門檻入手,加速數(shù)字人的普及和應(yīng)用。今年6月,在百度智能云大模型產(chǎn)品應(yīng)用發(fā)布會(huì)上,百度智能云副總裁喻友平宣布,2D數(shù)字分身和3D數(shù)字人的價(jià)格分別降至3000元和1.2萬元,百度稱,它們的2D數(shù)字人低于行業(yè)平均價(jià)格60%,3D數(shù)字人低于行業(yè)最低價(jià)格90%。
喻友平認(rèn)為,這能讓更多的企業(yè)和用戶能夠使用上數(shù)字人,“一旦數(shù)字人的價(jià)格能夠真正有大幅的下降之后,數(shù)字人將得到普遍應(yīng)用,加快在文旅宣傳、視頻制作、直播帶貨、企業(yè)導(dǎo)購等各種場(chǎng)景普及?!?/p>
還有企業(yè)通過開源開放的手段,來加速數(shù)字人技術(shù)的普及。比如硅基智能在6月宣布開源其AI數(shù)字人交互平臺(tái),使開發(fā)者能快速創(chuàng)建并部署智能數(shù)字人。
IDC認(rèn)為AI數(shù)字人技術(shù)使用的平民化正成為市場(chǎng)關(guān)注的重點(diǎn)。如何通過相關(guān)技術(shù)降低產(chǎn)品的使用和成本門檻將成為未來競爭的關(guān)鍵因素之一。
04 巨頭炮火下,創(chuàng)業(yè)公司的機(jī)會(huì)在哪里
去年到今年,一家布局過數(shù)字人業(yè)務(wù)的企業(yè)正在降低數(shù)字人板塊的權(quán)重。這與該企業(yè)創(chuàng)始人對(duì)數(shù)字人市場(chǎng)格局的判斷有關(guān)。
“之前我認(rèn)為競爭對(duì)手是一些A、B輪的公司,隨著大廠紛紛投入,比如字節(jié)大力投入剪映,視頻類自動(dòng)化生產(chǎn)工具未來大概率處于大廠射程之內(nèi)”,這位創(chuàng)始人因此將數(shù)字人板塊的業(yè)務(wù)權(quán)重降低,仍然保留技術(shù)投入,但是縮減規(guī)模。
中科深智宋健也認(rèn)為,市場(chǎng)當(dāng)下的確在發(fā)生一些變化。數(shù)字人應(yīng)用已經(jīng)從一開始令人有些獵奇的存在,慢慢變成一個(gè)基礎(chǔ)的組件,大廠和平臺(tái)級(jí)公司進(jìn)場(chǎng)將數(shù)字人作為大的服務(wù)包里的一個(gè)模塊。
IDC分析市場(chǎng)頭部供應(yīng)商格局時(shí)告訴數(shù)智前線,目前明星AI創(chuàng)業(yè)公司因較早進(jìn)入市場(chǎng),在數(shù)字人板塊,產(chǎn)品矩陣較為完備,市場(chǎng)認(rèn)知度高,展現(xiàn)了較強(qiáng)的商業(yè)化能力;而以云服務(wù)為代表的平臺(tái)級(jí)公司,優(yōu)勢(shì)在有一定的品牌知名度和用戶基數(shù),且借助合作伙伴和渠道力量,可以快速推廣產(chǎn)品。“以此來看,未來的競爭肯定是更加激烈”,IDC程蔭說。
“平臺(tái)企業(yè)在市場(chǎng)拓展或滲透階段,不會(huì)把成本作為最重要的考量因素,因此對(duì)賽道里的創(chuàng)業(yè)團(tuán)隊(duì)而言,如果不能獲得營收,不具備商業(yè)可持續(xù)性,可能就沒法往下走?!彼谓「嬖V數(shù)智前線。
不過這并不意味著大平臺(tái)之外的玩家沒有發(fā)展空間。
“大廠走的是通用路線,做的是標(biāo)準(zhǔn)化的東西,但其實(shí)每個(gè)行業(yè)都有復(fù)雜的需求”,宋健說,比如,用數(shù)字人做服裝模特,聽起來很簡單,但大平臺(tái)的產(chǎn)品很少滲透到這個(gè)細(xì)分市場(chǎng)。因?yàn)樾枰槍?duì)數(shù)字模特再去定制一套系統(tǒng),從模特的選型到衣服試穿,還需要專門去展示服裝的動(dòng)作,這些可能是用于短視頻或者直播平臺(tái)。但這些需求并非標(biāo)準(zhǔn)化的數(shù)字人模塊就能完成。
創(chuàng)業(yè)團(tuán)隊(duì)如何基于非標(biāo)準(zhǔn)化的產(chǎn)品形成商業(yè)閉環(huán),因而成了AI數(shù)字人賽道,創(chuàng)業(yè)團(tuán)隊(duì)與大廠差異化競爭的關(guān)鍵。
數(shù)智前線獲悉,目前中科深智就在探索,利用數(shù)字人做短視頻來完成客戶的互動(dòng)營銷需求。這里面數(shù)字人和內(nèi)容只是其中的一環(huán)。比如一些企業(yè)的線下店,通過線上的數(shù)字人視頻投放引流。給客戶提供的服務(wù),既包括要針對(duì)店鋪去生成合適的數(shù)字人帶貨視頻,還包括把視頻投放到不同的區(qū)域,獲得本地流量?;谝曨l和流量,形成了數(shù)據(jù)和商業(yè)運(yùn)營的閉環(huán),并且不斷去改進(jìn)視頻內(nèi)容的組合方式,最終靠CPS(按實(shí)際銷售額來計(jì)費(fèi)的廣告,可以理解為銷售額提成)的流量來付費(fèi)。
“只提供一個(gè)工具,就是與大廠正面PK,但如果是帶有CPS服務(wù)的非標(biāo)產(chǎn)品,雙方就不在一個(gè)維度競爭”,宋健說。
這種態(tài)勢(shì)下,玩家之間的競合關(guān)系也在變得更為多元。數(shù)智前線了解到,在標(biāo)準(zhǔn)產(chǎn)品滿足不了客戶場(chǎng)景需求的場(chǎng)合,大平臺(tái)也會(huì)帶著中小數(shù)字人團(tuán)隊(duì)共同服務(wù)客戶。比如特看科技的樂乘就介紹,他們目前也在與大廠合作,集成到大廠的產(chǎn)品模塊里共同去服務(wù)一些醫(yī)藥行業(yè)的市場(chǎng),“靠我們自己拿不下這樣的客戶,通過API的方式集成到大廠的產(chǎn)品里,各方是多贏關(guān)系”。
市場(chǎng)已經(jīng)卷起來了,不過當(dāng)下AI數(shù)字人依然處于起步階段,IDC判斷,到2026年中國AI數(shù)字人市場(chǎng)規(guī)模將達(dá)到102.4億元人民幣,距離市場(chǎng)成熟還需要時(shí)間。而無論是創(chuàng)業(yè)公司還是平臺(tái)級(jí)企業(yè),未來在這個(gè)市場(chǎng)都需要努力建立技術(shù)壁壘,以抓住機(jī)會(huì)。
文|徐鑫??????????????????????????????
編|任曉漁
本文由人人都是產(chǎn)品經(jīng)理作者【數(shù)智前線】,微信公眾號(hào):【數(shù)智前線】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!