直播亮點回顧:如何用大模型和實時音視頻構(gòu)建社交應(yīng)用?

0 評論 3304 瀏覽 10 收藏 11 分鐘

人人都是產(chǎn)品經(jīng)理 x 即構(gòu)科技聯(lián)合舉辦的“AI驅(qū)動社交創(chuàng)新:如何利用大模型和實時音視頻構(gòu)建社交應(yīng)用”主題直播已圓滿結(jié)束,干貨滿滿,一起來看。

隨著大模型技術(shù)的不斷演進,AI應(yīng)用正迅速融入各行各業(yè),深入到實際應(yīng)用場景的探索與創(chuàng)新中。特別是在AI社交領(lǐng)域,產(chǎn)品經(jīng)理面臨著全新的機遇和挑戰(zhàn):他們迫切希望了解AI大模型技術(shù)如何重塑社交行業(yè)格局,AI如何改變?nèi)藗兊纳缃环绞脚c體驗,以及AI實時互動技術(shù)將帶來哪些創(chuàng)新的社交應(yīng)用場景。

為了幫助產(chǎn)品經(jīng)理深入了解AI技術(shù)加持下的社交應(yīng)用,人人都是產(chǎn)品經(jīng)理與即構(gòu)科技共同舉辦了一場直播活動。

8月28日,我們邀請了臉臉科技CTO@黎平,即構(gòu)科技資深產(chǎn)品經(jīng)理/AI業(yè)務(wù)負(fù)責(zé)人@孫靖昆作為嘉賓。他們圍繞社交AI陪伴、實時互動數(shù)字人等話題,探討了如何利用大模型和實時音視頻技術(shù)構(gòu)建創(chuàng)新性的社交應(yīng)用。

一、圓桌互動問答

直播開始,兩位老師就活動主題帶來了精彩的對談,著重討論了AI趨勢及其對社交行業(yè)創(chuàng)新發(fā)展的推動作用,突出了AI實時互動技術(shù)在客服、情感娛樂、文旅等領(lǐng)域的廣泛應(yīng)用前景。

以下是概要的問答對話:

Q1:AI趨勢、大模型技術(shù)對社交行業(yè)賽道的影響有哪些?

孫靖昆老師:

第一種是,社交本身的AI化轉(zhuǎn)變,之前是人與人之間的社交,現(xiàn)在慢慢變成一些人與AI之間的社交;

第二種是,AI對于內(nèi)容創(chuàng)作和審核方面的新的東西,如定制化頭像、人設(shè)皮膚、在社交平臺上發(fā)的文本,視頻等;

第三種是,AI在語言翻譯中的應(yīng)用,AI翻譯技術(shù)促進了跨文化社交,使得不同文化之間的用戶可以通過AI來做到很好的跨語種之間的社交溝通。

Q2:用戶在線上線下的不同行為特點和習(xí)慣?

黎平老師:

我們在運營的過程中發(fā)現(xiàn)線上跟線下的用戶其實可以分為幾類。

  • 確定性消費:比方說去買一個飛利浦剃須刀,這種用戶基本上不去京東,不閑逛,可能幾分鐘就已經(jīng)下單完成,下午可能就送到貨了。
  • 半確定性消費:就是比方說想買剃須刀,但還沒確定是買什么牌子,還需要看性價比、看價格、看功能介紹。這些人就可能就去了天貓,去淘寶,去逛。
  • 不確定性消費:就比方說在購物中心,每天3到4萬,周末6到8萬的流量,這些人其實并不知道要買什么。因此怎么去創(chuàng)造買點是非常重要的。需要通過互動加娛樂,去創(chuàng)造消費。

Q3:在眾多實時互動云服務(wù)品牌中,臉臉科技為什么選擇了即構(gòu)?決策背后的考量?

黎平老師:

第一個是,整個公司的體量規(guī)模,即構(gòu)算是一個老牌的資深的公司。

第二個是,看我們要發(fā)展的AI跟數(shù)字,和即構(gòu)公司的技術(shù)沉淀跟主要的方向是不是一致。

第三個就是,看服務(wù)質(zhì)量的響應(yīng)速度。在落地一些AI數(shù)字人,包括一些模型訓(xùn)練上,即構(gòu)的響應(yīng)速度還是很快,解決問題的速度也很快。

Q4:雙方合作過程中,有沒有遇到哪些問題,又是如何解決的?

黎平老師:

臉臉科技一直在做商業(yè)場景,最近跨界到了文旅場景,做了一些景點的數(shù)字人的活化,通過我們的3D屏呈現(xiàn)出來。

我們在西湖邊上有蘇軾的數(shù)字人,選擇的是一個年紀(jì)大的演員形象,所以他有胡子。在數(shù)字人在處理的時候,胡子的飄逸還是蠻難的。

在跟即構(gòu)合作的過程中,也跟工程師一直在探討,怎么去把這個胡子這種飄逸感,很自然的感覺能呈現(xiàn)出來。

孫靖昆老師:

其實站在即構(gòu)的技術(shù)角度來看,像AI實時互動這種場景的挑戰(zhàn)性還是蠻大的。

  • 第一個是,效果的自然程度。黎總的這個文旅場景,演員模特有個長須,從AI視覺上來說,其實是一個很難處理的問題。因為他不是一個很連貫,在圖像拼接上有很大技術(shù)挑戰(zhàn)的事情。
  • 第二個是,聲音的自然程度。說話的時候,受到的情緒感染,是不是自然?這個最直觀的影響因素就是聲音,他的音色好不好聽,停頓語氣怎么樣。
  • 第三個是,延遲方面,對話的延遲。基本上普通用戶的感受是超過2秒就不能夠正常對話了。我們在整個工程化的鏈路上,把語音轉(zhuǎn)文本大模型,延遲都壓縮到了極致,現(xiàn)在是做到了1.5秒內(nèi)。

Q5:雙方合作中,AI和數(shù)字人的應(yīng)用場景有哪些?為線下流量場景帶來了哪些價值?

黎平老師:

比方說給品牌做AI櫥窗。像傳統(tǒng)意義上的服裝品牌在全國各地有幾千家。每次上新款,所有的模特都去換一遍,成本蠻高的。通過數(shù)字人的方式,一鍵就能夠把所有門店的數(shù)字化櫥窗都換掉。

第二個就是文旅場景,包括一些文化展廳,都用到了一些數(shù)字的活化。一個數(shù)字人,去介紹他們的特產(chǎn)、文化。還有準(zhǔn)備跟文化展廳合作的一些AI文創(chuàng)商店,去把一個人風(fēng)格化,最后面呈現(xiàn)紀(jì)念品上。

Q6:AI實時互動技術(shù)還有哪些行業(yè)和場景中的創(chuàng)新應(yīng)用?能否分享一些例子?

孫靖昆老師:

從場景上來說,目前是有兩大類的場景是比較能夠跑通商業(yè)化的。

第一大類是客服場景。重點在于幫企業(yè)顧客去解決問題,增強了顧客的體驗的流程,包括語音的實時問答,甚至視頻去服務(wù)客戶。

第二類是一些面向to c的場景。比如說AI陪伴,大部分做的是智能體,或者叫一個仔仔的概念。用戶自己去寫人設(shè),上傳視頻或者圖片,捏出自己的仔仔。跟這個仔仔去聊天、視頻通話等等,來獲得情感需求。從商業(yè)的收入上來看,賺的是會員費,跟仔仔互動過程中,隨著聊天越來越多,展開背后的更多的情節(jié)和故事。從數(shù)據(jù)上看,轉(zhuǎn)化的漏斗是蠻高的。每個用戶的粘性非常大,是付費的中堅力量。

即構(gòu)在這兩種場景下提供了非常完善的解決方案。包括數(shù)字人形象的云端API的解決方案,語音轉(zhuǎn)文本和文本轉(zhuǎn)語音的多模態(tài)大模型,RTC實時音視頻的推拉流的能力,幾行代碼快速調(diào)用IM對話聊天消息,提供了一個完整的AI實時互動的解決方案。

更詳細(xì)的互動問答內(nèi)容,可以在直播當(dāng)中一睹為快:https://vip.qidianla.com/course/detail/n2kv8.html#description

二、RTC+AI,泛娛樂社交AI新場景探索與實踐

兩位嘉賓互動結(jié)束后,孫靖昆老師還帶來了主題分享,內(nèi)容聚焦RTC+AI在泛娛樂社交領(lǐng)域的最新進展和應(yīng)用。首先,介紹了實時音視頻技術(shù)與AI的結(jié)合如何推動娛樂和陪伴場景的發(fā)展,并強調(diào)了AI陪伴作為行業(yè)的一個重要發(fā)展方向,及其在內(nèi)容生成、編輯和實時互動等方面的應(yīng)用。

孫老師指出,數(shù)字分身技術(shù)通過提供個性化的AI陪伴,已經(jīng)改變了社交媒體用戶的交互模式,并創(chuàng)造了新的商業(yè)模式。AI陪伴產(chǎn)品主要通過訂閱會員、內(nèi)購及廣告營收三種方式盈利。此外,GPT技術(shù)通過減少語音交互的延遲,實現(xiàn)了多模態(tài)交互與情緒識別,大大提高了人機對話的真實性和流暢性。

此次,還介紹了即構(gòu)科技提供的面向應(yīng)用層開發(fā)者的AI陪伴一站式解決方案,旨在提供全方位的絲滑互動體驗。討論還包括了直播過程中的具體執(zhí)行細(xì)節(jié)和面臨的挑戰(zhàn),如音視頻設(shè)置、內(nèi)容編輯、畫面切換策略以及抽獎流程的準(zhǔn)備等。深入探討了RTC+AI技術(shù)在社交娛樂領(lǐng)域的應(yīng)用現(xiàn)狀和未來發(fā)展趨勢。

還有更多的內(nèi)容因為篇幅有限不全部展開啦,感興趣的同學(xué)戳鏈接進行觀看:https://vip.qidianla.com/course/detail/n2kv8.html#description

掃碼添加小助手領(lǐng)取產(chǎn)品體驗demo

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!