“更大的焦慮,更大的想象力”:音視頻廠商如何闖入AI時代?
從GPT3.5到GPT4.0,從Runway、Pika到Sora,當大模型的價值鏈不斷升級,那些暫未爬到頂端的企業(yè),還剩下多少‘生存空間’??
于音視頻廠商而言,企業(yè)要解決的難題是,如何將技術與用戶連接在一起。讓大模型發(fā)揮想象力的同時,更要解決用戶的實際問題。
2024年初,國內的大模型公司還未從上一波“GPT4”的焦慮當中緩過來,Sora就已經席卷而至。緊接著,所有互聯(lián)網大廠幾乎都“停下手頭工作”,開始在新的領域做出一點成績,從而盡快在市場上發(fā)聲。
但在近期阿里蔡崇信的采訪中,他說道,“中國AI技術可能要落后美國兩年”。在這種不斷追趕的焦慮背后,一個引人思索的問題是,國內大模型公司追趕的究竟是什么?
站在更為具體的賽道上來看這一問題,作為離Sora最近的賽道——音視頻而言,這種焦慮也在不斷放大。
從GPT3.5到GPT4.0,從Runway、Pika到Sora,當大模型的價值鏈不斷升級,那些暫未爬到頂端的企業(yè),還剩下多少‘生存空間’?
實際上,于音視頻廠商而言,當“追逐技術”變?yōu)椤白分鹩脩簟?,這種價值就變得更加具體、更加實際。從近兩年音視頻廠商的發(fā)力趨勢可以看出,AI雖然是不可錯過的大趨勢,但企業(yè)要解決的難題是,如何將技術與用戶連接在一起。讓大模型發(fā)揮想象力的同時,更要解決用戶的實際問題。
一、AI時代,不斷進擊的“音視頻”
2022年,先是釘釘?shù)囊惶住敖M合拳”,緊接著,音視頻PaaS/SaaS廠商也紛紛跟進,不僅大手筆投入研發(fā),還在AI方向補充彈藥進行長遠布局,自此,圍繞音視頻賽道的“混戰(zhàn)”也正式打響。
音視頻PaaS公司“拍樂云”被收購一事在2022年受到廣泛關注,收購方正是阿里釘釘。一石激起千層浪,音視頻賽道迅速成為焦點。更為炸裂的消息是,有著視頻會議開創(chuàng)者Webex架構師、網易云信CTO和拍樂云創(chuàng)始人等多個顯赫頭銜的“趙加雨”,也攜團隊空降釘釘音視頻事業(yè)部的一號位。
而跟隨趙加雨的這伙人,個個都是音視頻領域的得力干將。其中,李備是拍樂云音頻專家,曾有5年WebEx音頻專家工作經驗;章琦,拍樂云首席科學家,8年WebEx音視頻引擎架構師工作經驗。
所有信號都指向了阿里布局音視頻賽道的決心。實際上,阿里在音視頻的布局更早就開始了。2021年11月,釘釘內部成立了獨立的音視頻事業(yè)部,該事業(yè)部成立的初衷便是聚焦在“研究音頻技術及算法創(chuàng)新,以及探索下一代音視頻會議形態(tài)”。
釘釘這一槍打響后,長年深耕在音視頻賽道的騰訊云,以及其他PaaS和SaaS廠商,也紛紛從研發(fā)、解決方案、應用場景和AI方面增添自己的彈藥庫。
同樣身為互聯(lián)網廠商,音視頻于騰訊而言,可以算是一種“與生俱來”的基因。到2022年,騰訊云的步伐早已到了在技術側實現(xiàn)突破,以及在行業(yè)應用上更加細分的程度。
比如騰訊云將一種能夠遠程實時控制的音視頻技術方案,應用在煤礦、港口場景里的無人駕駛卡車運營當中。而在此之前,在傳統(tǒng)行業(yè)里實現(xiàn)遠程的音視頻連接和操作,無論是技術還是應用場景方面都遠未達到成熟。
對于其他音視頻PaaS/SaaS廠商而言,增加研發(fā)投入則是一種更為直接的方式。
在2022年,除了阿里釘釘?shù)囊惶住敖M合拳”,音視頻賽道里的另一個重磅消息是,音視頻SaaS第一股“百家云”在納斯達克敲鐘上市。其2022上半年營收就達到了6860萬美元,實現(xiàn)同比增長65.5%。在2023年其更是凈利潤達480萬美元,實現(xiàn)扭虧為盈。而其研發(fā)費用更從2021財年的580萬美元大幅增加到2022財年的1300萬美元。
實際上,這種研發(fā)費用的驟增不僅僅是底層技術方面的發(fā)力,還有定制化和AI方面的投入。從財報中看,在2022財年的全年營收中還增加了一項“定制平臺開發(fā)服務”,全年該業(yè)務的營收達到了1030萬美元;而AI解決方案的收入也增加了760萬美元。
而與SaaS廠商不同,音視頻PaaS廠商的研發(fā)投入則更重。以聲網為例,根據(jù)其2022年的財報顯示,當年的全年總營收是1.61億美元,而單是研發(fā)費用就達到了1.1億美元。
那么,這1.1個億的費用具體體現(xiàn)在哪些方面?
2023年,聲網推出“鳳鳴AI引擎”,將AI降噪、AI回聲消除、空間音頻等技術進行了集成;在視頻方向,推出了超高清能力的超分、畫質提升、感知編碼、虛擬背景和AR特效等增強觀看體驗、臨場感和互動表達能力的實時AI技術;也開發(fā)了語音轉文字、內容審核等AI功能來增加信息提取、傳遞和保存的維度。
這是在AI時代、大模型時代下對智能化的一種響應。但羅馬不是一天建成的。于音視頻廠商而言,推出AI相關的技術或應用場景需要長期的投入。
無論是聲網,還是保利威、百家云等其他音視頻PaaS/SaaS廠商,對于AI的積累都要追溯到幾年前。只是從外界聲音來看,2023年是集中發(fā)力的一年。
以聲網為例,在鳳鳴AI引擎中集成的大部分技術都源于多年的積累。產業(yè)家向聲網CTO鐘聲了解到,“空間音頻”是鳳鳴AI引擎中集成的技術。利用AI算法來模擬頭部球面區(qū)域的立體聲場,在更細微處,甚至能捕捉到人的喜怒哀樂,將這種三維信息提取出來再放到AR增強的場景。從技術處理的細節(jié)便可以感知到,它是一種“厚積薄發(fā)”的產物。
實際上2023年,大模型在國內“狂飆”的同時,音視頻廠商更是不可能錯過這波風口。技術的長期投入,這一年給音視頻廠商的機會是在服務場景上更深化、更細致。
最為常見的便是AIGC解決方案的發(fā)布,這也是在市場層面能夠迅速引發(fā)關注的方式。比如聲網在去年發(fā)布RTE X AIGC 一站式產品能力解決方案;百家云發(fā)布全新AIGC產品“市場易”;騰訊云在音視頻產品矩陣上的智能化升級;保利威發(fā)布AI智能教育解決方案;即構推出AI視頻生成應用“即構數(shù)智人”等等。
而在無數(shù)的聲音背后,大模型給音視頻帶來的實際價值是什么?
二、技術、落地場景和“大小模型”方案
“到了今天這個時代,客戶不會關注噱頭,而是更切實地關注提高了多少效率,降低了多少成本?!边@是保利威全國售前總經理王建成近兩年的感受。
技術不斷進步的同時,服務場景也正在進一步深化。
拋開底層技術,在大模型時代,如果說真正能在效率上提升,以及成本上有所降低,用戶一定會在操作體驗層面有更強的感知。
那么,更為細致的應用場景,便是結合AI大模型,來解決曾經幾乎“不可能”的事情。
以金融領域為例,其監(jiān)管十分嚴格。一種常見的情況是,在直播過程中需要人為干預,進行監(jiān)聽。所以這種情況下,實時生成字幕對于大部分的金融客戶就很難滿足。
王建成告訴產業(yè)家,保利威的做法是結合金融客戶的特殊需求和行業(yè)特點,做出一種專為金融行業(yè)打造的特殊模型。
這是一種將直播技術與業(yè)務結合的最佳例證。而在AI大模型時代,在技術高度不斷刷新的當下,真正去解決用戶的實際問題,對于音視頻SaaS廠商,或許是一個更為務實的答案。
為什么說焦慮與現(xiàn)實有時并不成正比?
一方面,技術高度的不斷刷新確實會帶給人更大的焦慮,但另一方面,從現(xiàn)實的角度來講,技術高度的不斷刷新卻并未真正下沉到產業(yè),發(fā)揮真正的價值。
根據(jù)艾瑞咨詢報告顯示,在目前實時音視頻領域,領跑場景依舊停留在C端,在實際生產過程中,產業(yè)數(shù)字化的價值微乎其微。
那么,從技術的角度出發(fā),音視頻技術現(xiàn)在究竟發(fā)展到什么程度了?
可以看到的是,騰訊云已經能夠實現(xiàn)在煤礦、港口場景里,實時控制無人駕駛卡車運營。這是近兩年較為新鮮的嘗試。在這些場景同樣有所布局的還有聲網。除了更深入產業(yè)側的工業(yè)領域 ,聲網也在IoT行業(yè)、醫(yī)療健康行業(yè)持續(xù)發(fā)力。
而在大模型未到來之前,遠程的音視頻連接和操作,無論是技術還是應用場景方面都遠未達到成熟。
站在技術的角度,更具體來講,大模型給音視頻領域帶來的是更大的想象力。
2023年,阿里云智能高級算法專家劉國棟在深圳的一席演講中提到了一種大模型與小模型結合的技術。
在大模型還未出現(xiàn)的時候,只有小模型。其實,大模型與小模型都有各自的局限。小模型的局限在于其泛化能力比較差。而泛化能力差,通俗來講,就是小模型的理解和生成能力不好。但其優(yōu)點在于,小模型、傳統(tǒng)算法在算法開發(fā)、工程優(yōu)化方面已相對比較成熟,小模型的訓練資源占用少且訓練速度快,部署容易,端側落地性強。
而大模型出現(xiàn)后,這些問題都一一被解決了。而大模型的局限性在于,細粒度的問題還不能完美處理、容易出現(xiàn)幻覺現(xiàn)象、推理訓練成本都比較高等。
因此,大小模型協(xié)同便是最好的解決方案。通過讓大模型和小模型并聯(lián)和相互引導的方式,來優(yōu)化各自的問題。
而對于大模型與小模型的“協(xié)同”方面,聲網也有自己的理解。對此,鐘聲向產業(yè)家解釋道,“大模型的參數(shù)很大,需要巨量的數(shù)據(jù)包括高質量的數(shù)據(jù)來訓練。一個符合常理的邏輯是,最領先的大模型,其推理能力較強,可以通過蒸餾等方法來訓練小模型。大模型產生的結果,具備一定的質量,可以用來訓練小模型。未來,大小模型應該以‘聯(lián)合行動’的方式來共同完成任務,在算力、延時、隱私保護等方面實現(xiàn)一種更好的融合?!?/p>
一個更為遙遠的暢想是,隨著端上算力的增強,有著幾十億參數(shù)的大模型未來也有可能在端上運行。屆時,在各個領域實現(xiàn)“實時音視頻”則會成為現(xiàn)實。
三、更大的焦慮,更大的想象力
從GPT3.5到GPT4.0,從Runway、Pika到Sora,當大模型的價值鏈不斷升級,那些暫時還未爬到頂端的企業(yè),還剩下多少“生存空間”?
這是一個引人深思的發(fā)問。
近兩年,科技界追逐技術的熱情在不斷高漲。大眾對于AI的焦慮是更為遙遠的“生存威脅”,而科技界對AI焦慮則是由所謂“參數(shù)”和“長文本”所“卷”起來的商業(yè)競爭。
如果聚焦到產業(yè)側,聚焦到更實際的賽道,不斷刷新的榜單,不斷升級的參數(shù)、上下文長度,這些對于音視頻廠商而言意味著什么?
在與鐘聲的對話中了解到,聲網所追求的是實時性。而從目前來看,如果在云端的服務器上運行,最后在傳輸?shù)蕉说脑O備上,很難實現(xiàn)“實時性”。所以聲網的做法是是在端上進行計算。但客觀來講,端上運算的局限是算力不夠。
對此,鐘聲發(fā)表了一種觀點,雖然現(xiàn)在最前沿的技術都在追求Scaling Law(規(guī)模效應)支撐下的大模型,但對于聲網而言,追求極致的小模型意義則要更大一些。首先保證低延時、低成本,直接讓很小的AI算法在端上發(fā)力,通過極致、精準的算法來讓音視頻發(fā)揮最大的價值,低延時低成本可以為更多需要實時互動的客戶和用戶釋放出或者創(chuàng)造出巨大的價值;這方面業(yè)界的關注度還不夠,但終會成為焦點。聲網在這方面則做了較為專注的研發(fā)投入。
站在更實際的角度,如果在云端運算,雖然在大算力的支持下運行大模型,最終可以得到較好的效果,但現(xiàn)實情況是,在大多數(shù)的消費側場景,比如社交娛樂,系統(tǒng)響應延時過大,本身就不太像AGI,客戶或用戶也不可能花較高的費用來追求響應較慢的AGI效果。所以,在端上低延時低成本的運算更為有需求。
同時,鐘聲提出了一種暢想,在音視頻領域,AGI最終會發(fā)展成端邊云結合的方式,以平衡算力、延時、隱私和數(shù)據(jù)保護等幾個AI發(fā)展的關鍵要素。
這是大模型賦予音視頻廠商的想象力,而這種想象力也會應用到更現(xiàn)實的場景解決更實際的問題,比如醫(yī)療領域里會用到的遠程救治,其實時性要求極高,延遲1s都可能威脅到生命。
那么,在當下這個拼技術刷榜單的大模型時代,音視頻廠商要如何順應AI時代?
實際上,近兩年音視頻的發(fā)展趨勢已經從關注技術,走向關注更為實際的“降本增效”。以保利威為例,其SaaS訂閱收入達到90%成績背后,是結合具體的業(yè)務來解決實際用戶的問題。
如果通過大模型所提升的音視頻技術,不再止步于社交和娛樂,而是更為具體的生產環(huán)節(jié),甚至是治病救人,那么也許實時音視頻才會實現(xiàn)破圈,走向大眾。
作者:思杭,編輯:皮爺
來源公眾號:產業(yè)家(ID:chanyejiawang),專注深度產業(yè)互聯(lián)網內容
本文由人人都是產品經理合作媒體 @產業(yè)家 授權發(fā)布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!