沸騰的數(shù)字人:打響大模型產(chǎn)品落地第一槍

0 評(píng)論 1748 瀏覽 3 收藏 16 分鐘

大模型時(shí)代,真正顛覆性的產(chǎn)品是怎樣的?它應(yīng)該具備大模型的自進(jìn)化能力,還是能給產(chǎn)業(yè)貢獻(xiàn)新的生產(chǎn)力工具?亦或是重構(gòu)企業(yè)的經(jīng)營管理模型?數(shù)字人,正在給出一個(gè)答案。

“大模型如何往下走?”

6月底,一個(gè)投資機(jī)構(gòu)舉辦的以大模型為主題的閉門會(huì)上,這個(gè)話題被提出,并迅速引發(fā)了在座參與者們的廣泛討論,甚至,這種“討論”也可以稱為“探索”。

這種關(guān)注度也更在成為整個(gè)大模型市場的縮影。在長達(dá)12個(gè)月的技術(shù)參數(shù)競賽后,人們?cè)絹碓秸鎸?shí)地發(fā)現(xiàn),盡管AI和其它技術(shù)不同,其具備廣泛的認(rèn)知和重構(gòu)產(chǎn)業(yè)的能力,但就當(dāng)下而言,距離真正的產(chǎn)業(yè)AGI仍有不小的距離。

這種距離的具體表現(xiàn)則是——2024年的如今,大模型仍然很難在產(chǎn)業(yè)細(xì)分場景里成功落地。

根據(jù)一份不完全數(shù)據(jù)統(tǒng)計(jì),在過去的一段時(shí)間里,盡管對(duì)AI進(jìn)行嘗試的企業(yè)不計(jì)其數(shù),但真正將AI在企業(yè)內(nèi)部落地的比例不超過10%。

大模型的下一步應(yīng)該怎么走?或者對(duì)這個(gè)問題更細(xì)致的拆解是:如何讓大模型保持持續(xù)進(jìn)步和落地?

在剛剛過去的WAIC大會(huì)上,一個(gè)被廣泛提及的點(diǎn)是壓降幻覺率和AI應(yīng)用,這些在會(huì)上被展示出來的應(yīng)用遍布各行各業(yè),如工業(yè)、金融、教育、農(nóng)業(yè)等等,而具體到產(chǎn)業(yè)的環(huán)節(jié),也更覆蓋如內(nèi)部管理、營銷、物流、數(shù)據(jù)運(yùn)營等等。

而在其中,數(shù)字人是最受到關(guān)注的方向之一?!皵?shù)字人是現(xiàn)在為數(shù)不多能落地、被應(yīng)用、且可以看得到效果的AI應(yīng)用?!币晃淮髸?huì)的參觀者告訴產(chǎn)業(yè)家。

實(shí)際上,如果把視角聚焦到這個(gè)在大模型之前就出現(xiàn)的賽道身上,則是不難發(fā)現(xiàn),伴隨著大模型的出現(xiàn),數(shù)字人賽道正在迎來新的重構(gòu),這種重構(gòu)不僅在產(chǎn)品形態(tài)、技術(shù)突破,也在其在產(chǎn)業(yè)場景里帶來的價(jià)值。

“我們認(rèn)為數(shù)字人或?qū)⑹茿IGC時(shí)代代表性的顛覆性產(chǎn)品?!?/strong>京東科技人工智能業(yè)務(wù)負(fù)責(zé)人告訴產(chǎn)業(yè)家。一個(gè)足夠真實(shí)的數(shù)據(jù)是,京東云言犀數(shù)字人如今已經(jīng)累計(jì)服務(wù)品牌超5000家,帶動(dòng)GMV超過百億,而如今伴隨著數(shù)字人被越來越多的企業(yè)使用,這個(gè)GMV還正在加速躍升。

“大模型落地應(yīng)用先行,應(yīng)用驅(qū)動(dòng)大模型進(jìn)化”。數(shù)字人,正在打響這個(gè)飛輪的第一槍。

一、“數(shù)字人+大模型”,跨過產(chǎn)業(yè)“恐怖谷”

恐怖谷效應(yīng),一直是數(shù)字人賽道的發(fā)展掣肘。即盡管在過去的幾年時(shí)間里,從事數(shù)字人的企業(yè)和服務(wù)商不在少數(shù),但由于其一直存在“恐怖谷效應(yīng)”,所以數(shù)字人的落地一直處于不慍不火的狀態(tài)。

而更拆解來看,這種恐怖谷則體現(xiàn)在數(shù)字人的動(dòng)作靈活度、語言回復(fù)(交互)、自然姿勢(shì)展現(xiàn)等多個(gè)緯度。

一位數(shù)字人公司的CTO曾告訴產(chǎn)業(yè)家,“在學(xué)術(shù)界和工業(yè)界,做數(shù)字人一般會(huì)使用‘微妙’這個(gè)詞,因?yàn)橐粋€(gè)微小的差別,都能被人們感覺到。”

“這個(gè)賽道的整個(gè)產(chǎn)業(yè)鏈仍然不完善,包括硬件這些,盡管直播和培訓(xùn)有不少企業(yè)選擇采買,但核心技術(shù)還是不到位,很多企業(yè)甚至?xí)约河妹赓M(fèi)的技術(shù)搭建一個(gè),效果都大差不差。”一位地方文旅負(fù)責(zé)人表示。

但這個(gè)掣肘在4月16日晚的京東采銷直播間被“動(dòng)搖”。在當(dāng)天晚上18點(diǎn),“采銷東哥AI數(shù)字人”進(jìn)行了其在京東直播的首秀,包括人物造型、口音貼合度、動(dòng)作姿態(tài)都與真人差別度極小,甚至偶爾還能飆出幾句“宿遷話”,其首秀不到1小時(shí),直播間觀看量就超過2000萬,帶貨GMV更超5000萬。

“數(shù)字人,已經(jīng)跨過了‘恐怖谷’?!痹撠?fù)責(zé)人告訴我們,根據(jù)他介紹,在京東內(nèi)部,一個(gè)被力爭達(dá)成的目標(biāo)是“120s測(cè)試”,即如果在120s之內(nèi)觀眾沒有辨別出屏幕上的人為數(shù)字人,那么就可以稱之為跨過“恐怖谷”,而如今,這個(gè)挑戰(zhàn)已經(jīng)基本被完成。

這并不是一件容易的事。簡單的介紹是,目前行業(yè)內(nèi)對(duì)于數(shù)字人的構(gòu)建流程環(huán)節(jié)往往采取的是“建?!?qū)動(dòng)—渲染”的方式,但如果想要達(dá)成“自然無異”,甚至超過120s的真人效果,每個(gè)環(huán)節(jié)都需要做到完美,這還包括NLP、TTS的挑戰(zhàn)都必須攻克。

“京東云言犀數(shù)字人是端到端的視頻生成模式”該負(fù)責(zé)人告訴我們。Sora就是端到端的典型代表,但我們發(fā)現(xiàn)Sora生成的視頻仍經(jīng)常出現(xiàn)不合理的地方,比如扭曲的肢體動(dòng)作?!罢嬲逃眠€要面對(duì)幻覺問題,我們?cè)诨糜X壓降這塊下了很多功夫,因?yàn)榛糜X這類情況在商業(yè)上是不被允許的?!彼a(bǔ)充。

數(shù)據(jù)顯示,在“采銷東哥AI數(shù)字人”之外,在今年京東618期間,還有格力董明珠、海信胡劍涌、LG李東善、名創(chuàng)優(yōu)品葉國富、潔麗雅石展承等超18位總裁數(shù)字人,都已經(jīng)走向臺(tái)前,成為品牌新的直播法寶。

也可以說,伴隨著大模型的出現(xiàn),AI數(shù)字人正在釋放出更強(qiáng)的實(shí)用價(jià)值和更看得到的商業(yè)模式,不論是采銷東哥AI數(shù)字人,還是在品牌直播間愈發(fā)高頻出現(xiàn)的數(shù)字人主播,都在昭示著AI數(shù)字人這個(gè)顛覆性大模型產(chǎn)品的成熟。

但在數(shù)字人本身之外,如果從AI的視角來看,“大模型+數(shù)字人”到底意味著什么?

二、真實(shí)的數(shù)據(jù)閉環(huán),和新“AI生產(chǎn)力”工具

關(guān)于大模型,行業(yè)內(nèi)有一個(gè)共識(shí)的說法,即不論如何“要先讓大模型跑起來”。在過去半年的大模型論壇或者圓桌會(huì)議上,這個(gè)說法已經(jīng)成為共識(shí)。

原因?yàn)楹危?/p>

答案仍然是數(shù)據(jù)。眾所周知,對(duì)這波浪潮的主角之一OpenAI而言,在過去的近2年時(shí)間里,其最大的資金投入之一是算力成本,不論是A100、H800還是其它系列的GPU,對(duì)應(yīng)的都是天價(jià)投入,這種大投入也更催生出了GPT到4.0版本的更新迭代。

但明眼人能看到的是,從GPT4.0到5.0,乃至后續(xù)的規(guī)劃上,OpenAI放緩了相應(yīng)的產(chǎn)品更新節(jié)奏。

實(shí)際上,在算力之外,一個(gè)在如雪球般滾動(dòng)的成本也更在成為OpenAI的資金大頭,甚至占比越來越高,它就是數(shù)據(jù)。如果說從小學(xué)到大學(xué)的通識(shí)教育,對(duì)應(yīng)的是互聯(lián)網(wǎng)線上的基礎(chǔ)數(shù)據(jù)樣本,那么從大學(xué)到對(duì)應(yīng)領(lǐng)域的深造學(xué)習(xí),需要的則是更為真實(shí)且高質(zhì)量的數(shù)據(jù),對(duì)模型進(jìn)行訓(xùn)練。

但這些數(shù)據(jù),有盡頭。在不久前的一次科技論壇上,月之暗面創(chuàng)始人楊植麟也曾明確表示,大模型現(xiàn)階段的難點(diǎn)是如何找到更多更真實(shí)的數(shù)據(jù),但這樣的數(shù)據(jù)現(xiàn)在很難找到,甚至是否真實(shí)存在,他的態(tài)度是“不確定”。

從行業(yè)視角來看,關(guān)于大模型訓(xùn)練的進(jìn)階數(shù)據(jù)有兩種方式最為主流。一是利用大模型生成數(shù)據(jù),但需要在消除幻覺的基礎(chǔ)上;另一類是“創(chuàng)造真實(shí)的數(shù)據(jù)”,也就是尋找能跑起來的AI應(yīng)用。

對(duì)前者而言,這仍然是個(gè)數(shù)據(jù)是否真實(shí)的偽命題。但對(duì)于后者,如今已經(jīng)有跑出來的答案,它就是數(shù)字人。

能清晰看到的是,在AI數(shù)字人被一次次使用的當(dāng)下,它也更在通過一次次真實(shí)的交互生成出更為高質(zhì)量的數(shù)據(jù),進(jìn)而反饋大模型訓(xùn)練,推動(dòng)整個(gè)閉環(huán)乃至大模型飛輪效應(yīng)的形成。

這種閉環(huán)的形成并非偶然,甚至也更可以成為一整個(gè)AI工程的長期落地。在京東內(nèi)部,早在2018年開始,多模態(tài)人機(jī)交互項(xiàng)目就已經(jīng)開始投入研發(fā),而在如今生成式AI的催化下,它更是向前一步。

在大模型本身的幻覺層面,京東內(nèi)部團(tuán)隊(duì)也更是下了很大功夫。“我們認(rèn)為如果大模型不解決幻覺問題,不對(duì)其進(jìn)行極致的壓降,AI大模型很難成為未來真正的產(chǎn)業(yè)大廈?!?/strong>京東科技人工智能負(fù)責(zé)人告訴我們。

據(jù)了解,目前京東壓降幻覺率的主要方式是向量數(shù)據(jù)庫+優(yōu)質(zhì)數(shù)據(jù)。

從2019年開始,京東就開始研發(fā)向量數(shù)據(jù)庫,歷經(jīng)電商大促場景磨練,如今其向量數(shù)據(jù)庫Vearch已經(jīng)能支撐百億級(jí)高性能檢索,延時(shí)降低到毫秒級(jí)。京東在垂直行業(yè)的知識(shí)沉淀更是豐富,言犀大模型訓(xùn)練時(shí)就用了70%通用數(shù)據(jù)和30%的供應(yīng)鏈原生數(shù)據(jù)。

而從大模型的角度來看,基于AI數(shù)字人構(gòu)建起來的這種飛輪也更具其特殊之處。即不論是其產(chǎn)品背后對(duì)應(yīng)的大模型能力,還是如今發(fā)揮作用和價(jià)值的場域——電商平臺(tái),都對(duì)應(yīng)的不僅是大模型某單項(xiàng)能力的鍛煉,或反饋,而更多是集合全部模態(tài)的實(shí)戰(zhàn)考校和磨練。

在這種豐富的實(shí)戰(zhàn)中,“大模型—應(yīng)用—數(shù)據(jù)反饋—訓(xùn)練”的飛輪在加速運(yùn)轉(zhuǎn)。

三、數(shù)字人背后的「AI產(chǎn)品啟示錄」

其實(shí),數(shù)字人的價(jià)值還不僅于此。電商直播之外,在金融、教育、員工培訓(xùn)、企業(yè)數(shù)字員工等等越來越多的場景里,它都在成為新的AI生產(chǎn)力角色。

在大模型發(fā)展的如今,我們一直嘗試解答一個(gè)問題:大模型時(shí)代,真正顛覆性的產(chǎn)品是怎樣的?它應(yīng)該具備大模型的自進(jìn)化能力,還是能給產(chǎn)業(yè)貢獻(xiàn)新的生產(chǎn)力工具?抑或是重構(gòu)企業(yè)的經(jīng)營管理模型?

數(shù)字人,正在給出一個(gè)答案。在大模型從技術(shù)漸進(jìn)式到產(chǎn)業(yè)顛覆式發(fā)展的當(dāng)下,作為已經(jīng)落地的大模型產(chǎn)品,數(shù)字人已經(jīng)跨越了“AI+”,正式進(jìn)入AI重構(gòu)的時(shí)期。

首先,從技術(shù)來看,作為大模型的集大成者,不論是生成數(shù)字人的方式和步驟,抑或是其如今展現(xiàn)出來的能力,都有足夠的技術(shù)支撐,跨過“恐怖谷”,達(dá)到真正商用的階段,而配上如今低成本的配置,企業(yè)可以低門檻嘗試。

其次,從具體的效果而言,作為使用數(shù)字人的企業(yè),都可以基于數(shù)字人改變自身的企業(yè)經(jīng)營管理方式。以電商為例,在直播、數(shù)字人回復(fù)、AI外呼等等各方面,數(shù)字人都在構(gòu)建一種新的交互方式,幫助企業(yè)更好地傳遞聲音,創(chuàng)造價(jià)值。

同樣,在商業(yè)化角度也更是如此,即作為一種SaaS形態(tài),能清晰感知到的是AI數(shù)字人已然顛覆過去以往市場對(duì)SaaS產(chǎn)品低粘性、高流失、難定制的印象,其某種程度更等同于企業(yè)的“固定員工”。

可以說,作為如今唯一可落地、可大范圍時(shí)間的AI產(chǎn)品,數(shù)字人在將大模型技術(shù)的顛覆性在無數(shù)的產(chǎn)業(yè)場景中逐一展現(xiàn),并且貢獻(xiàn)出AI原生的“顛覆式”增量。

實(shí)際上,這也正是京東的思考。即在如今的大模型時(shí)代中,京東一直以來的口號(hào)是向產(chǎn)業(yè)進(jìn)發(fā)。

在過去的一年時(shí)間里,在強(qiáng)大的基座大模型之上,外界能看到的是京東似乎一直基于數(shù)字人發(fā)力,不論是東哥直播,還是幫助品牌伙伴的CEO做數(shù)字人,以及在金融、文旅等等方向進(jìn)行的數(shù)字人的落地,外界也更在對(duì)這種“單一的聲音”提出質(zhì)疑。

但這背后對(duì)應(yīng)的是京東一直定位的產(chǎn)業(yè)大模型思維。即相較于市面上大模型廠商在小參數(shù)、開源、閉源等越來越多概念上的爭論,京東所做的只有一點(diǎn)——尋找當(dāng)下階段中大模型能力的最佳、最實(shí)用釋放點(diǎn),兼?zhèn)銩I力、產(chǎn)品力、價(jià)值力、生產(chǎn)力,如今這個(gè)答案已經(jīng)給出,正是數(shù)字人。

肉眼可見的是,京東云言犀數(shù)字人已經(jīng)成為無數(shù)企業(yè)真實(shí)使用的大模型產(chǎn)品,不僅電商,也不僅直播。而在不經(jīng)意間,在數(shù)字人這個(gè)最具落地的AI大模型方向,不論是技術(shù)、落地、場景,還是商業(yè)化服務(wù)體系,京東都已然成為國內(nèi)最佳領(lǐng)跑者。

但還不止于此,在如今的京東內(nèi)部,類似數(shù)字人這種兼?zhèn)洚a(chǎn)品和生產(chǎn)力價(jià)值的顛覆式產(chǎn)品方向也在被加速尋找、研發(fā)。

“我們?cè)诖竽P头较?,更多追求的是一種雙贏的模式,最終希望數(shù)字人這些AI產(chǎn)品能夠給品牌商家?guī)韮r(jià)值,他們也愿意為之付費(fèi),建立一種良性的循環(huán)?!?/strong>上述負(fù)責(zé)人告訴我們。

以數(shù)字人為起點(diǎn),在大模型時(shí)代,京東正在給出屬于自己的回答。

作者 | 思杭

編輯 | 皮爺

本文由人人都是產(chǎn)品經(jīng)理作者【產(chǎn)業(yè)家】,微信公眾號(hào):【產(chǎn)業(yè)家】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!