AI行業(yè)應用:數(shù)據(jù)編織助力AI應用訓練突破
#本文為人人都是產(chǎn)品經(jīng)理《原創(chuàng)激勵計劃》出品。
雖然現(xiàn)在AI大模型很火,每個企業(yè)都想分一杯羹,但是過程中涉及到的算法、數(shù)據(jù)等不是輕而易舉就能實現(xiàn)的。其中,數(shù)據(jù)的傳輸和管理是個大問題。本文圍繞AI應用訓練的瓶頸展開敘述,對AI訓練難點進行總結(jié)并結(jié)合IDC分析報告,得出“數(shù)據(jù)”是最大瓶頸的結(jié)論,并針對該問題思考解決策略。
一、產(chǎn)品背景
“最近身邊再次響起了討論AI的聲音,與前兩年對AI持觀望態(tài)度不同,很多人都說隨著ChatGPT應用,AI時代真的來了,產(chǎn)品、運營同學們都在忙著了解什么是ChatGPT、什么是Stable Diffusion等等,但是算法工程師卻在瘋狂頭疼,瘋狂抱怨,領(lǐng)導要求他們盡快搞出大模型,盡快提升算法模型指標,服務業(yè)務,路過算法組聽到張工和胡工的以下的對話:
張工:胡哥,你的模型訓練的怎么樣了啊?
胡工:哎,一言難盡,沒數(shù)據(jù)啊,好不容易跟業(yè)務部門提了數(shù)據(jù),他們不是收集不上來,就是收集上來的數(shù)據(jù)各式各樣,沒法用???
張工:誰不是呢,我這邊也是,最近客戶的圖片,視頻加起來10多個T,讓我們自己傳,光來回導數(shù)據(jù)就耽誤了我們組好長時間。
胡工:你說要是公司能搞個數(shù)據(jù)平臺,讓我們快速獲取數(shù)據(jù)多好啊,日常把數(shù)據(jù)收集管理好,用的時候就省事多了。”
聽到以上的對話,我靈機一動,最近基于數(shù)據(jù)編織想法給客戶做的數(shù)據(jù)管理平臺不就剛好可以解決他們問題嘛,于是我趕緊給他們做了詳細的產(chǎn)品介紹,講述下如何通過“數(shù)據(jù)編織”的設計理念建設數(shù)據(jù)管理平臺幫助用戶突破AI在應用訓練中的數(shù)據(jù)瓶頸。
二、AI訓練應用難點
除去人員主觀問題外,我們將AI應用訓練的客觀難點進行總結(jié),可以概括為以下三點:
高質(zhì)量數(shù)據(jù):算法訓練想取得好的效果,首要條件是高質(zhì)量數(shù)據(jù),但是如何獲取高質(zhì)量數(shù)據(jù),存在如下困難:
- 數(shù)據(jù)多樣性:數(shù)據(jù)存在結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù),格式有多,不同系統(tǒng)提供的數(shù)據(jù)缺少統(tǒng)一標準。
- 數(shù)據(jù)分布:很多業(yè)務數(shù)據(jù)多是離散存儲,缺少統(tǒng)一的數(shù)據(jù)管理平臺,在應用訓練前,獲取數(shù)據(jù)艱難。
- 數(shù)據(jù)標注:即時獲取到數(shù)據(jù),但是大量業(yè)務數(shù)據(jù)在被應用前,都需要標注,標注耗時耗力。
高效算力:指訓練模型時,通常需要大量算力,同時如何將算力高效發(fā)揮成為難點
- 隨時大模型逐步推廣,模型體量越來越大,對算力的需求也迅速遞增。
- 當數(shù)據(jù)存儲離散時,對數(shù)據(jù)的訪問將變慢,即時有集群算力,當無法并行時,算力將無法高效應用。
成熟框架:指算法應用需要成熟穩(wěn)定,擴展性強的算法框架
- 應用框架:目前國內(nèi)外深度學習算法框架眾多,對于算法研究(Pytorch)、工業(yè)應用(Tensorflow)需要選擇不同的框架。
- 數(shù)據(jù)轉(zhuǎn)換:由于框架不同、使用語言不同,即時有準備好的高質(zhì)量數(shù)據(jù)也需要快速適配不同語言和訓練框架。
小結(jié):從AI應用訓練的3個難點分析,都與數(shù)據(jù)有關(guān),所以如果能解決數(shù)據(jù)問題,可有效助力AI應用訓練突破瓶頸。
三、數(shù)據(jù)是否是AI應用的瓶頸?
雖然從應用側(cè)總結(jié)出數(shù)據(jù)是AI應用訓練的瓶頸,但是到底有多少用戶這么認為呢?需要用一份數(shù)據(jù)來說明。
人工智能應用的主要挑戰(zhàn)排名
人工智能模型開發(fā)過程中,投入多少工作量用于數(shù)據(jù)準備
注:數(shù)據(jù)來源于IDC統(tǒng)計報告
從數(shù)據(jù)統(tǒng)計可以看出,其中有29%的用戶認為人工智能的應用缺少訓練和測試數(shù)據(jù),85%的用戶認為至少花費了一半以上的工作量用于準備數(shù)據(jù)。
小結(jié):既然數(shù)據(jù)被證實確實是AI應用的瓶頸,那么就可以考慮從數(shù)據(jù)尋找切入點,以提供統(tǒng)一標準、快速訪問的大批量的高可用數(shù)據(jù)源為定位開展產(chǎn)品規(guī)劃。
四、產(chǎn)品設計
在尋找到以數(shù)據(jù)為切入點后,思考如何建設數(shù)據(jù)類的產(chǎn)品,根據(jù)上述的分析,可以發(fā)現(xiàn)要在我們的產(chǎn)品中解決3個數(shù)據(jù)類問題:
- 問題1:數(shù)據(jù)存儲,盡可能不改變源數(shù)據(jù)的存儲位置,最大化降低數(shù)據(jù)存儲的成本。
- 問題2:快速訪問,從早期的數(shù)據(jù)查詢最好變成數(shù)據(jù)推理,快速搜索所需數(shù)據(jù)。
- 問題3:統(tǒng)一標準,將復雜的數(shù)據(jù)進行統(tǒng)一規(guī)范,便于應用。
對以上問題,本次在傳統(tǒng)數(shù)據(jù)管理平臺基礎上采用“數(shù)據(jù)編織+知識圖譜”的理念進行變革設計。其中各個問題的突破點如下:
- 問題1:基于數(shù)據(jù)編織思想進行設計
- 問題2:基于知識圖譜思想進行設計
- 問題3:基于統(tǒng)一的數(shù)據(jù)平臺對外提供服務
接下來是產(chǎn)品的詳細設計,從產(chǎn)品定位、應用架構(gòu)、差異化競爭力和建設路徑展開介紹。
1. 產(chǎn)品架構(gòu)
1)產(chǎn)品定位
以數(shù)據(jù)編織思想提供知識圖譜式的數(shù)據(jù)管理平臺,服務于需要高質(zhì)量數(shù)據(jù)的客戶。
注:雖然主要目標是解決AI應用訓練的數(shù)據(jù)瓶頸,但是從產(chǎn)品規(guī)劃角度,我們將用戶場景擴大,但凡需要數(shù)據(jù)服務的都是該產(chǎn)品的目標用戶。
2)產(chǎn)品應用架構(gòu)
從數(shù)據(jù)層到產(chǎn)品應用層,我們設計如下的產(chǎn)品架構(gòu):
數(shù)據(jù)層:支持接入不同種類數(shù)據(jù)類型,以及結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),AI訓練的數(shù)據(jù)類別較多,尤其是多模態(tài)應用更需要多種類型的數(shù)據(jù)。
存儲層:針對數(shù)據(jù)的離散性,要支持數(shù)據(jù)在不同位置的存儲,從云上數(shù)據(jù)到本地數(shù)據(jù)都需要支持接入。
數(shù)據(jù)管理平臺:本次需要設計的核心產(chǎn)品,主要包括四塊:
- 數(shù)據(jù)治理:傳統(tǒng)的數(shù)據(jù)管理平臺均具備的通用模塊,提供數(shù)據(jù)分析、清洗和規(guī)則定義等功能。
- 數(shù)據(jù)安全:同樣的屬于傳統(tǒng)模塊,提供跟數(shù)據(jù)安全相關(guān)的功能,如數(shù)據(jù)脫敏、數(shù)據(jù)安全傳輸?shù)取?/li>
- 數(shù)據(jù)虛擬化存儲&分布式緩存:此處即是利用數(shù)據(jù)編織思想對來自不同平臺的數(shù)據(jù)進行網(wǎng)格化編織形成一張數(shù)據(jù)視圖,同時僅虛擬化存儲數(shù)據(jù)的邏輯信息,不做元數(shù)據(jù)的遷移和復制,降低存儲成本;但是為了能夠快速獲取數(shù)據(jù),在設計中提供分布式緩存,將訪問頻繁的數(shù)據(jù)做緩存,提高AI算法訓練對數(shù)據(jù)的I/O速度和并行性,最大化提高算力集群效率。
- 知識圖譜:將清洗好的數(shù)據(jù),定義好規(guī)則好,按照知識圖譜三元組的形式進行存儲,對外以知識圖譜的形式提供查詢服務,知識圖譜有利于進行搜索的推理,可以通過某個實體數(shù)據(jù)關(guān)聯(lián)到另一個實體數(shù)據(jù),比如查詢電影視頻數(shù)據(jù),可以搜索“人在囧途”,通過演員“王寶強”和“徐崢”就會關(guān)聯(lián)出“泰囧”,通過關(guān)聯(lián)推理查詢可以幫助用戶在平臺中快速抽取到所需數(shù)據(jù)。
數(shù)據(jù)服務:在設計完平臺后,需要預留出對外服務的出口,從產(chǎn)品的定位出發(fā),以toB客戶為主,所以既要考慮可視化服務、也要提供API類的服務。
- API/SDK服務:面向有技術(shù)能力的公司或者用戶,比如本文想解決的AI訓練應用瓶頸,就可以通過將AI平臺直接集成數(shù)據(jù)平臺的API服務,獲取需要的數(shù)據(jù),將清洗好的數(shù)據(jù)用于模型訓練。注:一般AI訓練平臺需要標注后的數(shù)據(jù),所以可以先將標注平臺接入,再直接數(shù)據(jù)傳輸給AI訓練平臺。
- 可視化查詢:除了考慮技術(shù)層面對接,當然還要考慮業(yè)務用戶在平臺查詢數(shù)據(jù),下載數(shù)據(jù)等行為,比如產(chǎn)品經(jīng)理、運營經(jīng)理,他們需要依賴平臺自身提供的可視化查詢,檢索并下載數(shù)據(jù)后,導入其他業(yè)務平臺進行加工生產(chǎn),其中可視化查詢采用圖譜結(jié)構(gòu),以天眼查的樣式為參考,通過搜索某個數(shù)據(jù),同時將關(guān)聯(lián)數(shù)據(jù)呈現(xiàn),便于用戶推理查詢。
圖注:天眼查截圖僅用于學習參考
2. 商業(yè)化
產(chǎn)品一旦落地,商業(yè)化是不可獲取的,所以在產(chǎn)品規(guī)劃階段需要將商業(yè)化方向先考慮清楚,從以下3個關(guān)鍵方面考慮:
1)售賣內(nèi)容
針對B端客戶,我們提供兩類售賣內(nèi)容,包括“數(shù)據(jù)管理平臺”標品和“技術(shù)方案”。
- 標品:面向無數(shù)據(jù)管理平臺的用戶,用戶只需要買入我們的標品,將數(shù)據(jù)接入,即可在業(yè)務中應用,做到即開即用。
- 技術(shù)方案:經(jīng)過數(shù)字化轉(zhuǎn)型大潮的影響,不少的B端企業(yè)客戶或多或少都會有自己的數(shù)據(jù)管理平臺,所以toB的另一個售賣點就是售賣成熟的技術(shù)方案,對企業(yè)現(xiàn)有的產(chǎn)品進行改造升級,此時,我們需要基于“數(shù)據(jù)編織+知識圖譜”設計思路對客戶產(chǎn)品從底層到服務層進行改造。
2)售賣方式
B端產(chǎn)品常見的兩種售賣模式“渠道合作”和“直銷”,在本產(chǎn)品中也采用這些方式。
- 渠道合作:選中兩類渠道合作,一類是地市的代理,由他們在地方進行推廣;一類是ISV模式,找到有技術(shù)能力的總集代理,將數(shù)據(jù)管理平臺與他們的產(chǎn)品合作,可以優(yōu)勢互補,對外一起推廣。
- 直銷:通過舉辦產(chǎn)品發(fā)布會、廣告推廣、跑客戶等手段進行產(chǎn)品直接銷售。
3)差異化優(yōu)勢
既然是基于新的設計思路打造的數(shù)據(jù)管理平臺,那么在產(chǎn)品銷售過程中,就需要體現(xiàn)出與傳統(tǒng)數(shù)據(jù)管理平臺的差異化優(yōu)勢,才能后來居上,吸引用戶,我們可以概況為以下3個優(yōu)勢點:
- 數(shù)據(jù)編織:該產(chǎn)品是采用數(shù)據(jù)編織的思想進行數(shù)據(jù)管理,采用數(shù)據(jù)虛擬化存儲,降低數(shù)據(jù)物理存儲成本;同時 通過數(shù)據(jù)緩存的方式降低AI應用訓練時獲取數(shù)據(jù)的訪問時延。
- AI能力:與傳統(tǒng)數(shù)據(jù)平臺通過各種條件檢索的方式不同,在本產(chǎn)品中直接通過知識圖譜視圖的形式呈現(xiàn),用戶可以僅輸入某個簡單條件,系統(tǒng)即可返回相關(guān)的數(shù)據(jù)關(guān)系拓撲,實現(xiàn)“數(shù)據(jù)找人”。
- 成熟標品:雖然可以賣技術(shù)方案,但是如果沒有成熟的標品終究不好打動客戶,所以與傳統(tǒng)廠商賣大而全的數(shù)據(jù)管理平臺不同,我們賣“小而精”的一站式智能數(shù)據(jù)管理平臺。
3. 建設路徑
產(chǎn)品的成熟還需要有持續(xù)的建設路徑,在本產(chǎn)品建設過程中,立足“項目打磨產(chǎn)品”,分兩個2個大的階段進行建設。
- 項目交付,技術(shù)沉淀:通過承接1/2個私有化的數(shù)據(jù)類項目,在項目中沉淀數(shù)據(jù)編織和知識圖譜的建設思路,實現(xiàn)技術(shù)沉淀。
- 產(chǎn)品落地,品牌推廣:從實際項目中抽象出產(chǎn)品,并迭代落地,帶產(chǎn)品建設后,做品牌化,并對外推廣。
五、結(jié)論
本文圍繞AI應用訓練的瓶頸展開敘述,對AI訓練難點進行總結(jié)并結(jié)合IDC分析報告,得出“數(shù)據(jù)”是最大瓶頸的結(jié)論,并針對該問題思考解決策略。
以數(shù)據(jù)編織和知識圖譜的理念進行產(chǎn)品變革設計,從產(chǎn)品定位、產(chǎn)品架構(gòu)、應用場景等角度詳細介紹了一款“數(shù)據(jù)找人”的智能化數(shù)據(jù)管理平臺,同時還介紹了產(chǎn)品后續(xù)的商業(yè)推廣思路及建設路徑,對有數(shù)據(jù)應用場景的客戶,如AI訓練平臺,數(shù)據(jù)標注平臺,甚至是傳統(tǒng)數(shù)據(jù)管理產(chǎn)品需要改造升級的客戶可以提供幫助。
后續(xù)我們會進一步探索將數(shù)據(jù)編織的思路擴大到模型并行訓練的實際過程中,尋求更多的數(shù)據(jù)高效化的可行性。
專欄作家
Eric_d,人人都是產(chǎn)品經(jīng)理專欄作家。關(guān)注AI、大數(shù)據(jù)等領(lǐng)域,擅長需求分析、產(chǎn)品流程和架構(gòu)設計等,日常喜歡徒步。
本文為人人都是產(chǎn)品經(jīng)理《原創(chuàng)激勵計劃》出品。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
考慮向量數(shù)據(jù)庫嘛兄弟
謝謝提醒,這塊之前沒考慮到,更多考慮的Clickhouse,如果考慮某些業(yè)務場景,向量數(shù)據(jù)庫確實有優(yōu)勢