大模型時(shí)代下,向量數(shù)據(jù)庫(kù)的野望
隨著大模型的興起,向量數(shù)據(jù)庫(kù)成為數(shù)據(jù)管理領(lǐng)域的重要變革者。向量數(shù)據(jù)庫(kù)專門處理向量數(shù)據(jù),能有效存儲(chǔ)和檢索非結(jié)構(gòu)化數(shù)據(jù),為AI和機(jī)器學(xué)習(xí)應(yīng)用提供強(qiáng)大支持。在大模型時(shí)代,向量數(shù)據(jù)庫(kù)作為大模型的長(zhǎng)期記憶,展現(xiàn)了其無(wú)與倫比的效率和準(zhǔn)確性。盡管目前仍處發(fā)展初期,但隨著AI應(yīng)用場(chǎng)景的加速落地,向量數(shù)據(jù)庫(kù)前景廣闊,預(yù)計(jì)將在數(shù)據(jù)處理和檢索中發(fā)揮關(guān)鍵作用,推動(dòng)技術(shù)進(jìn)步和應(yīng)用拓展。
自ChatGPT爆火,國(guó)內(nèi)頭部平臺(tái)型公司一擁而上,先后發(fā)布AGI或垂類LLM,但鮮有大模型基礎(chǔ)設(shè)施在數(shù)據(jù)層面的進(jìn)化,比如向量數(shù)據(jù)庫(kù)。
在此之前,向量數(shù)據(jù)庫(kù)經(jīng)歷了幾年的沉寂期,現(xiàn)在似乎終于乘著ChatGPT的東風(fēng)成為資本的“寵兒”。然而,一年狂飆之后,市場(chǎng)逐漸退潮,因此有人質(zhì)疑,向量數(shù)據(jù)庫(kù)又涼了?
判斷一條賽道是否真的有潛力,資本的注入雖是前提,但更重要的還有市場(chǎng)的態(tài)度。大模型應(yīng)用的逐步落地于向量數(shù)據(jù)庫(kù)而言,無(wú)疑是最好的催熟劑。
然而任何新技術(shù)的到來(lái),都需要更長(zhǎng)的時(shí)間才能得到市場(chǎng)的接受。
一份關(guān)于向量數(shù)據(jù)庫(kù)的市場(chǎng)研究是,隨著AI應(yīng)用場(chǎng)景加速落地,據(jù)西南證券分析,預(yù)計(jì)2025年向量數(shù)據(jù)庫(kù)滲透率約為30%,其中,中國(guó)向量數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模約為82.56億元。而據(jù)中國(guó)信通院測(cè)算,到2025年,中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模將達(dá)688億元。這意味著,兩年后向量數(shù)據(jù)庫(kù)在中國(guó)的滲透率將超過(guò)10%。
在國(guó)內(nèi),不少數(shù)據(jù)庫(kù)廠商都在嘗試推出向量數(shù)據(jù)庫(kù)產(chǎn)品,然而從市場(chǎng)驗(yàn)證階段走向?qū)崿F(xiàn)盈利,中間還需要一段更漫長(zhǎng)的時(shí)間。向量數(shù)據(jù)庫(kù)究竟是虛火過(guò)旺還是星辰大海?在向量數(shù)據(jù)庫(kù)這條賽道,能否看到更遠(yuǎn)的未來(lái)?
向量數(shù)據(jù)庫(kù),剛剛開(kāi)始
向量數(shù)據(jù)庫(kù),顧名思義,是一種專門處理向量數(shù)據(jù)的數(shù)據(jù)庫(kù)。在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)中,數(shù)據(jù)通常以表格形式存儲(chǔ),而向量數(shù)據(jù)庫(kù)則將非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、音頻等)轉(zhuǎn)換為向量形式進(jìn)行存儲(chǔ)。這種數(shù)據(jù)表示方法使得向量數(shù)據(jù)庫(kù)能夠高效地處理大規(guī)模、高維度的數(shù)據(jù)集,為AI提供了強(qiáng)大的計(jì)算基礎(chǔ)。
如果說(shuō)數(shù)據(jù)庫(kù)是數(shù)據(jù)的“硬盤(pán)”,那么,向量數(shù)據(jù)庫(kù)就是更適合AI體質(zhì)的“硬盤(pán)”,其“AI原生”的體質(zhì),具體表現(xiàn)在以下幾個(gè)方面。
首先,是更高的效率。AI算法,要從圖像、音頻和文本等海量的非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí),提取出以向量為表示形式的“特征”,以便模型能夠理解和處理。因此,向量數(shù)據(jù)庫(kù)比傳統(tǒng)基于索引的數(shù)據(jù)庫(kù)有明顯優(yōu)勢(shì)。
其次,更低的成本。大模型要從一種新技術(shù)轉(zhuǎn)化為產(chǎn)業(yè)價(jià)值,必須達(dá)到合理的投入產(chǎn)出比,而向量數(shù)據(jù)庫(kù)可以有效減少存儲(chǔ)和計(jì)算成本。一個(gè)公開(kāi)數(shù)據(jù)是,通過(guò)騰訊云向量數(shù)據(jù)庫(kù),QQ音樂(lè)人均聽(tīng)歌時(shí)長(zhǎng)提升3.2%、騰訊視頻有效曝光人均時(shí)長(zhǎng)提升1.74%、QQ瀏覽器成本降低37.9%,就在于檢索效率、運(yùn)行穩(wěn)定性、運(yùn)營(yíng)效率、推薦算法等,有了較大的提升。
第三,更強(qiáng)的數(shù)據(jù)安全。企業(yè)想做大模型,還要確保數(shù)據(jù)的隱私安全,就必須與數(shù)據(jù)庫(kù)產(chǎn)品做好配合,這給向量數(shù)據(jù)庫(kù)的本地部署帶來(lái)了廣闊的需求。
第四,更大的擴(kuò)展性。隨著大模型走向行業(yè)應(yīng)用,垂直領(lǐng)域的AI用例不斷增多,洶涌的數(shù)據(jù)洪潮和存算任務(wù),會(huì)帶來(lái)大量向量搜索的需求。而向量數(shù)據(jù)庫(kù)嵌入向量的長(zhǎng)度不受限制,具有良好的擴(kuò)展性,可以根據(jù)AI用例和模型而變化,更好地處理大規(guī)模數(shù)據(jù)集。
從大模型技術(shù)標(biāo)桿的OpenAI發(fā)布的GPT-4o和即將發(fā)布的GPT-5消息來(lái)看,以及國(guó)內(nèi)外商業(yè)化大模型的進(jìn)展來(lái)看,大模型的技術(shù)路線還沒(méi)有發(fā)生顛覆性的變革,因此落地應(yīng)用還是需要向量檢索和向量數(shù)據(jù)庫(kù)。
由此可見(jiàn),向量數(shù)據(jù)庫(kù)與AI的關(guān)系緊密相連。在大模型興起之前,傳統(tǒng)數(shù)據(jù)庫(kù)已經(jīng)在不斷嘗試與AI結(jié)合,主要涉及以下幾個(gè)方向:數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)檢索與查詢、數(shù)據(jù)集成與共享、數(shù)據(jù)安全與隱私保護(hù)。隨著大模型的興起,可以看到在這些方向上,數(shù)據(jù)庫(kù)與AI間的關(guān)聯(lián)比以往任何時(shí)候都要密切。
此外,AI 大模型的興起還為數(shù)據(jù)庫(kù)注入了預(yù)測(cè)估算的能力。AI模型可以通過(guò)學(xué)習(xí)歷史數(shù)據(jù)和模式,對(duì)未來(lái)的趨勢(shì)和結(jié)果進(jìn)行預(yù)測(cè)和估算。傳統(tǒng)數(shù)據(jù)庫(kù)可以集成AI模型,實(shí)現(xiàn)對(duì)數(shù)據(jù)的預(yù)測(cè)分析。這使得數(shù)據(jù)庫(kù)可以不僅提供對(duì)歷史數(shù)據(jù)的查詢和分析,還能夠提供對(duì)未來(lái)數(shù)據(jù)的預(yù)測(cè)和估算結(jié)果,幫助用戶做出更準(zhǔn)確的決策。
總的來(lái)說(shuō),幾乎所有類型的數(shù)據(jù)庫(kù)都在積極向AI靠攏,比如在數(shù)據(jù)庫(kù)中添加向量索引,數(shù)據(jù)庫(kù)和AI已經(jīng)密不可分,兩者相輔相成,共同推動(dòng)著技術(shù)的進(jìn)步和應(yīng)用的拓展。
兩大新勢(shì)力,云是方向
傳統(tǒng)數(shù)據(jù)庫(kù)廠商不必多說(shuō),既有相應(yīng)的能力建設(shè),也有一定的客戶基礎(chǔ),推出相關(guān)產(chǎn)品是必然。一些在AI領(lǐng)域積淀已久的科技大廠,如谷歌、微軟、Meta、百度等大廠,都有向量數(shù)據(jù)庫(kù)的技術(shù)積累,也都可以向外輸出相關(guān)能力和產(chǎn)品。
除了這些常規(guī)面孔,向量數(shù)據(jù)庫(kù)市場(chǎng)也吸引了新的參與者。作為這一輪大模型投資熱和創(chuàng)業(yè)熱的主要目標(biāo)之一,向量數(shù)據(jù)庫(kù)領(lǐng)域誕生了不少創(chuàng)新創(chuàng)業(yè)公司。比如AI創(chuàng)業(yè)新秀Pinecone就是閉源的領(lǐng)跑者,憑借良好的開(kāi)箱即用的產(chǎn)品體驗(yàn),獲得了非常大的增長(zhǎng),B輪估值達(dá)到7.5億美元。其他競(jìng)爭(zhēng)者大多建立在開(kāi)源項(xiàng)目的基礎(chǔ)上。
不過(guò),作為創(chuàng)業(yè)公司,長(zhǎng)期盈利能力還有待驗(yàn)證。一個(gè)主要原因,是客戶大多是嘗鮮、實(shí)驗(yàn)性質(zhì)。
企業(yè)需要先將非結(jié)構(gòu)化的私密數(shù)據(jù),放入一個(gè)小的模型中進(jìn)行數(shù)據(jù)轉(zhuǎn)化,即數(shù)據(jù)向量化,產(chǎn)生一個(gè)向量的矩陣,再存儲(chǔ)到向量數(shù)據(jù)庫(kù)里,來(lái)供大模型學(xué)習(xí)和檢索。這個(gè)過(guò)程涉及大量的工程化,會(huì)耗費(fèi)企業(yè)許多開(kāi)發(fā)人員、時(shí)間成本,一開(kāi)始可能會(huì)因?yàn)锳I大模型很火而對(duì)向量數(shù)據(jù)庫(kù)產(chǎn)生興趣,但能否真正在業(yè)務(wù)中落地還是個(gè)未知數(shù)。因此,長(zhǎng)期付費(fèi)意愿還有較大的不確定性。
另一股積極參與的新勢(shì)力,就是公有云廠商。
從2017年到2019年,于向量數(shù)據(jù)庫(kù)的發(fā)展而言,是一段更為重要的時(shí)間。騰訊云、百度智能云、京東科技等也恰都是在這個(gè)時(shí)間段將向量數(shù)據(jù)庫(kù)的相關(guān)組件應(yīng)用到具體的業(yè)務(wù)之上。
實(shí)際上,這段時(shí)間所對(duì)應(yīng)的背景也正是,非結(jié)構(gòu)化數(shù)據(jù)需求的激增。
一個(gè)具有代表性的事件是,2017年,短視頻的爆火,催生了新媒體行業(yè),各種結(jié)構(gòu)數(shù)據(jù)也隨之出現(xiàn)。這一現(xiàn)象就導(dǎo)致了不同結(jié)構(gòu)數(shù)據(jù)的處理需求。
除此之外,京東、騰訊和百度的內(nèi)部產(chǎn)品也有更多類似的需求。而向量化引擎也正是從這一時(shí)間點(diǎn)開(kāi)始萌芽。
事實(shí)上,不是所有企業(yè)都有能力自建大模型所需要的基礎(chǔ)設(shè)施,通過(guò)MaaS(模型即服務(wù))業(yè)務(wù)來(lái)訓(xùn)練應(yīng)用大模型,是更靈活的選擇。此外,很多政企客戶往往會(huì)選擇公有云或行業(yè)云來(lái)滿足其業(yè)務(wù)需求,對(duì)云數(shù)據(jù)庫(kù)的關(guān)注度和接受度上升,而這些用戶在探索大模型時(shí),會(huì)傾向于以整體解決方案的形式來(lái)交付,這就給了云廠商參與到此賽道機(jī)會(huì),同時(shí)也要求云廠商提供向量數(shù)據(jù)庫(kù)的全棧支持。
如今頭部云廠商基本建立了全生命周期AI化的向量數(shù)據(jù)庫(kù)。有數(shù)據(jù)顯示,企業(yè)原先接入一個(gè)大模型需要花1個(gè)月左右時(shí)間,使用某公有云的向量數(shù)據(jù)庫(kù)后,3天時(shí)間即可完成,極大降低了企業(yè)的接入成本。
更何況,前不久火山引擎、阿里云、百度智能云等都圍繞大模型API價(jià)格,打起了互相抄底的“價(jià)格戰(zhàn)”,意味著AI創(chuàng)新門檻的降低,而AI應(yīng)用市場(chǎng)的用戶規(guī)模擴(kuò)大,也會(huì)帶動(dòng)向量數(shù)據(jù)庫(kù)的使用需求。
綜合來(lái)看,整個(gè)云AI市場(chǎng)的格局還在快速變化之中,風(fēng)物長(zhǎng)宜放眼量,AI Native的向量數(shù)據(jù)庫(kù),前景仍然值得期待。
向量數(shù)據(jù)庫(kù),展望AGI時(shí)代
從某種程度上而言,無(wú)論是向量數(shù)據(jù)庫(kù),還是大模型,歸根結(jié)底,大家在追捧它時(shí)的心態(tài),焦慮大于需求。而這種焦慮則來(lái)源于“害怕被落下”。
大模型、多模態(tài)等新技術(shù)、新應(yīng)用的出現(xiàn),正在迅速刷新著人們對(duì)AGI時(shí)代的期待,仿佛它下一刻就會(huì)到來(lái)。
而向量數(shù)據(jù)庫(kù)的熱潮,在一定程度上“外化”了人們的焦慮。但這并不能否定向量數(shù)據(jù)庫(kù)的實(shí)際價(jià)值,甚至更長(zhǎng)遠(yuǎn)的價(jià)值。
雖然,目前向量數(shù)據(jù)庫(kù)仍處于發(fā)展初期,但可以確定的是,向量數(shù)據(jù)庫(kù)與大模型一定是捆綁關(guān)系。因此,未來(lái)其演進(jìn)方向也一定隨著大模型能力的演進(jìn)而發(fā)生變化。
騰訊云數(shù)據(jù)庫(kù)副總經(jīng)理羅云認(rèn)為,向量數(shù)據(jù)庫(kù)幫助大模型解決在專有領(lǐng)域知識(shí)不足的問(wèn)題。通用大模型是基于海量的互聯(lián)網(wǎng)業(yè)務(wù)和數(shù)據(jù)去訓(xùn)練的,但對(duì)于一些細(xì)分的垂直行業(yè)缺少知識(shí)。而向量數(shù)據(jù)庫(kù)可以幫助企業(yè)打通企業(yè)私有知識(shí)庫(kù)和大模型的連接,幫助企業(yè)更好地利用大模型等AI新技術(shù)去實(shí)現(xiàn)企業(yè)的降本增效,推動(dòng)企業(yè)從“數(shù)字化”到“數(shù)智化”的躍升,這就是向量數(shù)據(jù)庫(kù)在AI時(shí)代的重要的定位和價(jià)值。
騰訊云數(shù)據(jù)庫(kù)副總經(jīng)理 羅云
而在具體的演進(jìn)方向上,向量數(shù)據(jù)庫(kù)一定會(huì)考慮多模態(tài)數(shù)據(jù)的表達(dá)以及數(shù)據(jù)的智能化管理。
首先,在大模型應(yīng)用百花齊放的背景下,向量數(shù)據(jù)庫(kù)對(duì)于多模態(tài)數(shù)據(jù)的處理意義,變得十分重要。
羅云進(jìn)一步舉例,比如某教育客戶,把一些線下的教育課程,甚至老師上課的教育提綱,全部作為向量,存儲(chǔ)到騰訊云的向量數(shù)據(jù)庫(kù)里。當(dāng)家長(zhǎng)想要去咨詢某節(jié)課老師講了什么,就可以把存儲(chǔ)在向量數(shù)據(jù)庫(kù)里面內(nèi)容檢索出來(lái),再交給大模型按照人們能理解的語(yǔ)言來(lái)回答,這就將向量數(shù)據(jù)庫(kù)與大模型進(jìn)行了很好的匹配。
如果沒(méi)有向量數(shù)據(jù)庫(kù)參與,以及沒(méi)有合理的多模態(tài)數(shù)據(jù)處理方式,這種情況下是無(wú)法查詢出這些數(shù)據(jù)的。
但隨著多模態(tài)數(shù)據(jù)規(guī)模上的提升,另一個(gè)問(wèn)題也隨之出現(xiàn)。不同數(shù)據(jù)庫(kù)中數(shù)據(jù)如何將其統(tǒng)一管理并讓數(shù)據(jù)流通起來(lái),這就涉及到的智能化管理也是向量數(shù)據(jù)庫(kù)未來(lái)的發(fā)力點(diǎn)。
向量數(shù)據(jù)庫(kù)作為處理多樣性和復(fù)雜性數(shù)據(jù)挑戰(zhàn)的得力工具,為各行業(yè)提供了高效、靈活的數(shù)據(jù)管理解決方案。其高維索引、相似性查詢、向量聚合等特點(diǎn),使其在推薦系統(tǒng)、搜索引擎、社交媒體分析、生物信息學(xué)和圖像視頻分析等多個(gè)領(lǐng)域得到了成功應(yīng)用。
不可否認(rèn),向量數(shù)據(jù)庫(kù)的未來(lái)既蘊(yùn)含著廣闊的發(fā)展空間,也面臨著諸多挑戰(zhàn)。得益于大模型火熱,向量數(shù)據(jù)庫(kù)已逐漸成為資本市場(chǎng)的青睞之選。在未來(lái)的AGI道路上,向量數(shù)據(jù)庫(kù)仍需要砥礪前行。>
本文由人人都是產(chǎn)品經(jīng)理作者【科技云報(bào)到】,微信公眾號(hào):【科技云報(bào)到】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!