建造知識庫:邁出搭建TO B大模型的第一步
人工智能浪潮中,知識庫已然不僅是數(shù)據(jù)的簡單集合,它已成為企業(yè)智能化轉(zhuǎn)型的核心競爭力。?
一個大模型的知識庫怎么建?
“從去年下半年開始,我們就開始搭建自己的大模型,基于LLAMA的架構(gòu)?!?/strong>一位國內(nèi)制造業(yè)企業(yè)的CIO告訴產(chǎn)業(yè)家,“第一步就是搭建知識庫?!?/p>
這家誕生于20世紀80年代的制造業(yè)企業(yè),擁有近40年的精密制造經(jīng)驗。在過去的幾十年里,該企業(yè)跨過信息化、互聯(lián)網(wǎng)化,來到數(shù)字化、智能化時代。 為了更好地提升工作效率、支持技術(shù)發(fā)展、推動企業(yè)文化和組織結(jié)構(gòu)的變革,在去年下半年,公司啟動了基于“開源算法的AI系統(tǒng)”的新項目。 項目被迅速推進。 首先,幾個知識庫的方向被迅速敲定,其中包括生產(chǎn)環(huán)節(jié),辦公環(huán)節(jié)以及協(xié)作環(huán)節(jié)。其次,由公司組織,通過部門會議和討論,收集員工在日常工作中經(jīng)常遇到的高頻問題; 此外,選擇一些對新知識敏感、愿意接受新技術(shù)的員工,組成學(xué)習(xí)小組,進行初步的AI和知識庫使用培訓(xùn),并要求學(xué)習(xí)小組成員提出一定數(shù)量的問題,對這些問題進行分類;將收集到的問題和答案用于訓(xùn)練AI模型,以提高其回答問題的準確性。最終,將其部署在自己的服務(wù)器上。 這恰是一個完整的知識庫搭建流程。 從更大的視角來看,在To B企業(yè)服務(wù)市場的浪潮中,如今大模型的落地應(yīng)用正成為企業(yè)航船的強勁引擎。而知識庫,作為這引擎的燃料,也正受到前所未有的關(guān)注。它不僅是輔助工具如Copilot和智能代理Agent的堅實后盾,更是全場景企業(yè)級大模型部署的核心力量。 在過去的一年時間里,不同的服務(wù)商,包括基座大模型廠商、軟件服務(wù)商、云服務(wù)商、行業(yè)解決方案提供商以及第三方大模型開發(fā)平臺,都在幫助企業(yè)構(gòu)建知識庫方面發(fā)揮著各自的作用。 比如,基座大模型廠商的做法是通過提供一站式企業(yè)級大模型平臺,使得企業(yè)能夠享受到從數(shù)據(jù)處理到模型訓(xùn)練、部署和運維的全流程服務(wù);軟件服務(wù)商的模式則是更傾向于提供垂直的解決方案,他們結(jié)合特定行業(yè)知識,幫助企業(yè)構(gòu)建符合行業(yè)特性的知識庫。 那么在當(dāng)下的大模型時代,知識庫到底發(fā)揮什么作用,它和大模型的關(guān)系到底是怎樣的?以及知識庫在大模型訓(xùn)練過程中到底發(fā)揮怎樣的作用? 首先,一個精準的定義是,TO B企業(yè)的知識庫,更可以看作是一個專業(yè)性極強的信息資源庫,它與個人知識庫相比,具有明顯的系統(tǒng)性、規(guī)模性和保密性特點。 從構(gòu)成內(nèi)容來看,企業(yè)知識庫通常包含大量專業(yè)性強、與企業(yè)運營緊密相關(guān)的數(shù)據(jù),這些數(shù)據(jù)不僅包括文本信息,還可能涵蓋圖片、視頻、音頻和數(shù)據(jù)表格等多模態(tài)格式。這樣的設(shè)計使得企業(yè)知識庫能夠支持企業(yè)的決策制定、流程優(yōu)化和客戶服務(wù)等多個方面。 其特殊性在于,企業(yè)知識庫中的數(shù)據(jù)具有特定的業(yè)務(wù)含義,如客戶信息、交易記錄和庫存狀態(tài)等,這些對于企業(yè)的日常運營和長期戰(zhàn)略規(guī)劃都至關(guān)重要。 此外,企業(yè)知識庫的數(shù)據(jù)還與內(nèi)部流程和規(guī)則緊密相連,如生產(chǎn)流程和財務(wù)規(guī)則等,這要求企業(yè)知識庫必須具備高度的集成性,以便與企業(yè)的其他系統(tǒng)如ERP和CRM等實現(xiàn)無縫集成。 這些從語料到連接到流程的特殊性,對應(yīng)的也更是在大模型的落地過程中,企業(yè)知識庫扮演著至關(guān)重要的角色。 具體來看,首先在訓(xùn)練初始環(huán)節(jié),知識庫的角色是為大模型提供豐富的訓(xùn)練數(shù)據(jù),確保模型能夠精準匹配企業(yè)的具體業(yè)務(wù)需求和場景。通過持續(xù)的反饋循環(huán),知識庫幫助模型不斷自我優(yōu)化,提升性能。 以市面上如今流行的RAG技術(shù)為例,大模型能夠檢索知識庫中的相關(guān)信息,生成準確的回答或解決方案,并將這些輸出反饋回知識庫中,形成一個持續(xù)學(xué)習(xí)和改進的閉環(huán),從而顯著提升解決問題的效率和準確性。 例如Google的DeepMind Health項目通過整合多模態(tài)數(shù)據(jù),提高了疾病診斷的準確性,在識別視網(wǎng)膜病變方面提高了診斷準確率;Salesforce的數(shù)據(jù)顯示,通過知識庫微調(diào)的AI模型在銷售預(yù)測方面的準確率提高了約30%。 甚至可以說,企業(yè)知識庫的建設(shè)和應(yīng)用直接影響大模型在企業(yè)內(nèi)部的使用效果。它不僅提高了模型的效率和準確性,還增強了用戶對模型輸出的信任和滿意度。同時,企業(yè)還可以通過知識庫來控制數(shù)據(jù)的訪問和使用,確保數(shù)據(jù)安全和合規(guī)性。 根據(jù)IBM的年度報告,其知識庫幫助減少了約20%的內(nèi)部查詢響應(yīng)時間,同時提高了數(shù)據(jù)安全性;根據(jù)亞馬遜的業(yè)務(wù)報告,通過知識庫的應(yīng)用,庫存周轉(zhuǎn)率提高了約15%,客戶滿意度提升了10%。 最后,更可以看做,隨著企業(yè)對數(shù)字化轉(zhuǎn)型的需求日益增長,企業(yè)知識庫與大模型的結(jié)合也更將成為企業(yè)獲取競爭優(yōu)勢的重要工具。 在德勤的一項分析中,那些有效利用知識庫的企業(yè),其年增長率平均比行業(yè)平均水平高出15%。 可以說,知識庫的最核心價值呈現(xiàn)恰是其在為模型提供了微調(diào)數(shù)據(jù)之外,還確保模型能夠真正適應(yīng)企業(yè)的特定需求,提高其在企業(yè)內(nèi)部的有效性。 盡管市場上眾多企業(yè)提供了基于大型模型的知識庫服務(wù),但構(gòu)建這樣的系統(tǒng)并非輕而易舉的任務(wù)。 例如,根據(jù)《企業(yè)知識管理調(diào)查報告》顯示,超過60%的企業(yè)在嘗試集成AI助手時遇到了技術(shù)障礙。 正如文章開頭所述的案例,企業(yè)在搭建知識庫的過程中,需要將AI助手與現(xiàn)有的多種軟件和系統(tǒng)進行集成。這要求企業(yè)擁有大量且細致的數(shù)據(jù)集來訓(xùn)練AI模型,這在企業(yè)初期是一個巨大的挑戰(zhàn)——確保AI助手提供的答案準確無誤,尤其是在制造業(yè)這樣對錯誤容忍度極低的行業(yè)中。福特汽車公司在集成AI系統(tǒng)時,就曾面臨數(shù)據(jù)精確度不足的問題,導(dǎo)致初期模型的準確率僅為70%。 在數(shù)據(jù)層面,企業(yè)需要選擇不同的數(shù)據(jù)處理工具,如Apache Spark、Hadoop,標注軟件如LabelImg,內(nèi)容管理系統(tǒng)(CMS)如WordPress、Drupal,以及企業(yè)搜索解決方案如Elasticsearch、Apache Solr,都是構(gòu)建知識庫的利器。 據(jù)Gartner的報告指出,市場上排名前五的數(shù)據(jù)處理工具在數(shù)據(jù)清洗效率上的差異可達到30%以上。 此外,知識庫的用戶界面設(shè)計對員工的使用體驗和效率有著直接影響;同時,工具與企業(yè)現(xiàn)有系統(tǒng)和工作流程的集成性也是至關(guān)重要的。IBM的Watson平臺在與企業(yè)系統(tǒng)集成時,就提供了超過200種預(yù)集成選項,顯著提高了集成效率。 面對這些挑戰(zhàn),一些基礎(chǔ)模型供應(yīng)商和軟件服務(wù)提供商正在幫助企業(yè)構(gòu)建知識庫。比如百度的“昆侖芯+飛槳平臺+文心大模型”布局,以及華為的“昇騰芯片+MindSpore框架+盤古大模型”等,都是從更系統(tǒng)的層面保障企業(yè)大模型部署的成功。 此外,像滴普科技這樣的軟件廠商,也不斷提供垂直的解決方案,其客戶滿意度調(diào)查顯示,使用滴普科技基于數(shù)據(jù)庫等數(shù)據(jù)細顆粒度的解決方案的企業(yè),其知識庫構(gòu)建成功率可以提高40%。 然而,工具本身并非萬能。企業(yè)要成功搭建自己的知識庫,還需要克服內(nèi)部組織結(jié)構(gòu)、業(yè)務(wù)流程和員工接受度等難點。高層的支持和明確的戰(zhàn)略規(guī)劃對于項目的成功至關(guān)重要。根據(jù)麥肯錫的一項研究,有高層支持的企業(yè)知識庫項目成功率比沒有支持的高出50%。 在搭建知識庫的過程中,IT部門或知識管理部門通常是牽頭者,負責(zé)架構(gòu)設(shè)計和技術(shù)選型。而業(yè)務(wù)部門則需要提供內(nèi)容支持,確保知識庫的信息準確、及時。 例如,產(chǎn)品開發(fā)部門提供最新的產(chǎn)品信息,客戶服務(wù)部門貢獻常見問題解答,人力資源部門提供員工培訓(xùn)材料。這就像一場交響樂,每個部門都是不可或缺的樂手,共同奏出和諧的樂章。一項針對500家企業(yè)的調(diào)查發(fā)現(xiàn),那些擁有健全知識庫的企業(yè),其產(chǎn)品開發(fā)周期平均縮短了20%。 此外,企業(yè)還應(yīng)該培養(yǎng)員工的知識共享文化,鼓勵他們將經(jīng)驗和教訓(xùn)貢獻給知識庫,形成持續(xù)的知識積累和更新。根據(jù)哈佛商業(yè)評論的研究,擁有強大知識共享文化的公司,其創(chuàng)新速度比行業(yè)平均水平快30%。 總之,企業(yè)知識庫的建設(shè)是一項系統(tǒng)化的工程,它要求企業(yè)從戰(zhàn)略層面進行規(guī)劃,技術(shù)層面進行實施,文化層面進行推動。只有當(dāng)知識庫真正是以企業(yè)知識寶庫的形式存在,才能真正從大模型的價值層面進行賦能加持。 再回到文章最開始那個問題:知識庫于大模型而言,意味著什么? 首先,從表層來看,知識庫為模型提供了訓(xùn)練所需的海量數(shù)據(jù)和信息資源。谷歌的BERT模型之所以在語言理解任務(wù)上取得顯著進展,是因為它訓(xùn)練時使用了包含超過3000本未版權(quán)書籍和2400萬網(wǎng)頁的龐大知識庫。這樣的數(shù)據(jù)豐富性確保了模型能夠?qū)W習(xí)到廣泛的語言模式和知識。 知識庫中的信息多樣性也是大模型落地的關(guān)鍵。IBM的Watson在醫(yī)療領(lǐng)域應(yīng)用時,依賴于包含超過200萬頁醫(yī)學(xué)文獻、圖像和病例報告的多模態(tài)知識庫,這使得Watson能夠處理復(fù)雜的醫(yī)療咨詢和診斷任務(wù)。 此外,從模型的特定性來看,知識庫中的信息準確性對于大模型的決策支持至關(guān)重要。例如,金融機構(gòu)在使用大模型進行風(fēng)險評估時,依賴于準確無誤的金融數(shù)據(jù)知識庫,這些數(shù)據(jù)往往來源于經(jīng)過嚴格審核的金融報告和市場分析。 知識庫,正在成為大模型落地的基礎(chǔ)。 目前做得好的知識庫不僅僅是靜態(tài)的信息集合,而是動態(tài)、互動的平臺。它不僅僅是信息的存儲和分類,更是知識發(fā)現(xiàn)和創(chuàng)新的催化劑。當(dāng)前做得好的知識庫,已經(jīng)超越了傳統(tǒng)的文檔管理和搜索功能,它們通過集成先進的搜索算法、自然語言處理技術(shù),甚至將機器學(xué)習(xí)模型(如prompt)嵌入其中,實現(xiàn)了知識的自動更新和智能化推薦。 例如,亞馬遜的A3知識庫存儲了超過5億個產(chǎn)品信息,并通過機器學(xué)習(xí)算法不斷優(yōu)化產(chǎn)品推薦,提高了用戶體驗和銷售效率。這些知識庫通常具備高度集成、用戶友好、智能化、個性化和持續(xù)學(xué)習(xí)的特點。 未來,知識庫的搭建方式將更加智能化和自動化。例如,自動內(nèi)容聚合工具如Import.io能夠從互聯(lián)網(wǎng)上自動收集和整理信息,而機器學(xué)習(xí)平臺如Google’s TensorFlow則能夠處理和分析這些數(shù)據(jù)。知識庫的作用將不僅限于提供數(shù)據(jù)支持,它將成為企業(yè)決策的智能助手,通過分析大量數(shù)據(jù)提供洞察和建議。 在大模型落地中,知識庫的更新和進化模式將變得更加動態(tài)。例如,OpenAI的模型能夠根據(jù)用戶的反饋和行為自動調(diào)整其生成的文本,以適應(yīng)不斷變化的需求和環(huán)境。這種自我優(yōu)化的能力將使知識庫成為大模型持續(xù)進化的重要驅(qū)動力。 隨著技術(shù)的進步,知識庫將變得更加智能、互動和自適應(yīng),為企業(yè)提供更加強大和靈活的知識管理能力。據(jù)Gartner預(yù)測,到2025年,超過30%的大型企業(yè)將擁有自己定制的人工智能知識庫,這將極大地推動企業(yè)智能化的發(fā)展。 在人工智能的浪潮中,知識庫已然不僅是數(shù)據(jù)的簡單集合,它已成為企業(yè)智能化轉(zhuǎn)型的核心競爭力。 作者:斗斗,編輯:皮爺 來源公眾號:產(chǎn)業(yè)家(ID:chanyejiawang),專注深度產(chǎn)業(yè)互聯(lián)網(wǎng)內(nèi)容 本文由人人都是產(chǎn)品經(jīng)理合作媒體 @產(chǎn)業(yè)家 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。 題圖來自Unsplash,基于CC0協(xié)議 該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。一、大模型時代,重新理解知識庫
二、誰在構(gòu)建知識庫?
三、知識庫背后:大模型的落地成色
- 目前還沒評論,等你發(fā)揮!