AI技術(shù)分支——淺談知識圖譜
知識圖譜從字面上看,可以拆分為知識+圖譜,是指將需要的知識數(shù)據(jù)(結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù))以圖譜的形式進行展示,這種簡單的過程也是知識圖譜的構(gòu)建過程。
1. 什么是知識圖譜
知識圖譜屬于AI領(lǐng)域的是一個分支,很多人覺得它和CV(計算機視覺),ASR(語音識別),以及NLP(自然語言處理)一樣都是特指的某一項技術(shù),其實這么理解并不準確,它應(yīng)該算是多種技術(shù)融合后的一種綜合型技術(shù)。
知識圖譜的歷史最早要追溯到2012年,由google公司提出主要用于提升搜索引擎的檢索效率,但隨著其發(fā)展其背后更深刻意義,遠不僅是提高檢索效率這么簡單,而是整個搜索引擎結(jié)構(gòu)的整體轉(zhuǎn)型:將傳統(tǒng)基于關(guān)鍵字的搜索模型轉(zhuǎn)向基于語義的搜索升級。
如今針對知識圖譜的技術(shù)方案已被國內(nèi)外多家搜索引擎公司所采用,如:美國的微軟必應(yīng),中國的百度、搜狗等,都在在短短的一年內(nèi)紛紛宣布了各自的“知識圖譜”產(chǎn)品,足以看出這革新對整個搜索引擎界的整體影響。
但現(xiàn)在這項技術(shù)的應(yīng)用并不僅拘泥于搜索引擎領(lǐng)域范圍,很多的數(shù)據(jù)分析軟件,CRM系統(tǒng)也開始采用基于知識圖譜的模式去處理數(shù)據(jù),從而去深入發(fā)現(xiàn)數(shù)據(jù)更大的價值。
知識圖譜從字面上看,可以拆分為知識+圖譜,這樣我們就可以理解:將需要的知識數(shù)據(jù)(結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù))以圖譜的形式進行展示,這種簡單的過程也是知識圖譜的構(gòu)建過程。
2. 知識圖譜中的“知識”
說到知識,就是將數(shù)據(jù)中有價值的內(nèi)容加以提煉,數(shù)據(jù)我們每天都會接觸,如系統(tǒng)產(chǎn)生的數(shù)據(jù)、客戶數(shù)據(jù),甚至一些非結(jié)構(gòu)化的網(wǎng)絡(luò)數(shù)據(jù)。
但是數(shù)據(jù)不等同于知識,其中結(jié)構(gòu)化的數(shù)據(jù)其實還好,因為在存儲之初就已經(jīng)對要存儲的數(shù)據(jù)進行了相應(yīng)的設(shè)計,所以入庫的數(shù)據(jù)基本都是有價值的數(shù)據(jù)。
但相比于結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)就顯示更加復(fù)雜,目前分布在互聯(lián)網(wǎng)上的知識常常以分散、異構(gòu)、自治的形式存在,另外還具有冗余、噪音、不確定、非完備的特點,清洗并不能解決這些問題,因此從這些知識出發(fā),通常需要融合和驗證的步驟,來將不同源不同結(jié)構(gòu)的數(shù)據(jù)融合統(tǒng)一,以保證知識的一致性。
把大量的知識匯聚存儲起來就成為了知識庫。
知識庫構(gòu)建流程:,從大量數(shù)據(jù)中提取有價值的數(shù)據(jù)作為有效支持,將知識內(nèi)容進行整合入庫,從而構(gòu)建數(shù)據(jù)庫。
3.?知識應(yīng)用“圖譜”構(gòu)建
知識圖譜旨在描述真實世界中存在的各種實體或概念,因此知識整理進行入庫時,對應(yīng)的知識內(nèi)容都會轉(zhuǎn)為實體(eneity)概念,每個實體上都會標示一個唯一ID,并且每個對象屬性值(attribute-value)用來刻畫實體的內(nèi)在特性,而關(guān)系(relation)用來連接兩個實體,刻畫它們之間的關(guān)聯(lián)。
因此,將無數(shù)實體以對應(yīng)關(guān)系的形式進行存儲,知識圖譜亦可被構(gòu)建成一張巨大的網(wǎng)絡(luò)圖。
其中上述提到的實體、關(guān)系、屬性,在存儲之前都需要采用RDF方式對其進行結(jié)構(gòu)化聲明,即需要事先定義一套標準的schema在抽取數(shù)據(jù)之前做預(yù)備工作,由于是標準的schema,所以不管是抽取結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù),內(nèi)容都是適用的。
除了三元素定義,另外知識圖譜領(lǐng)域還有一個三元組的概念。
如下圖:
我們以搜索:“姚明的妻子是誰?”這句話為例,其對應(yīng)結(jié)果三元組規(guī)則為{實體:姚明,關(guān)系:配偶,實體:葉莉},
而當我們改以搜索:“葉莉今年多大?”進行檢索,其對應(yīng)結(jié)果三元組規(guī)則為{實體:葉莉,屬性:age,屬性值:34},
4.?整體架構(gòu)與核心功能點
(1)實體抽取
指的是從原始語料中自動識別出命名實體,由于實體是知識圖譜中的最基本元素,其抽取的完整性、準確率、召回率等將直接影響到知識庫的質(zhì)量。因此,實體抽取是知識抽取中最為基礎(chǔ)與關(guān)鍵的一步。
(2)實體對齊
實體對齊也稱為實體匹配或?qū)嶓w解析,主要是用于消除異構(gòu)數(shù)據(jù)中實體沖突、指向不明等不一致性問題,可以從頂層創(chuàng)建一個大規(guī)模的統(tǒng)一知識庫,從而幫助機器理解多源異質(zhì)的數(shù)據(jù),形成高質(zhì)量的知識。
(3)知識推理
知識推理則是在已有的知識庫基礎(chǔ)上進一步挖掘隱含的知識,從而豐富、擴展知識庫。在推理的過程中,往往需要關(guān)聯(lián)規(guī)則的支持。由于實體、實體屬性以及關(guān)系的多樣性,人們很難窮舉所有的推理規(guī)則,一些較為復(fù)雜的推理規(guī)則往往是手動總結(jié)的。
對于推理規(guī)則的挖掘,主要還是依賴于實體以及關(guān)系間的豐富同現(xiàn)情況。知識推理的對象可以是實體、實體的屬性、實體間的關(guān)系、本體庫中概念的層次結(jié)構(gòu)等。知識推理方法主要可分為基于邏輯的推理與基于圖的推理兩種類別。
(4)知識更新
根據(jù)知識圖譜的邏輯結(jié)構(gòu),其更新主要包括模式層的更新與數(shù)據(jù)層的更新。模式層的更新是指本體中元素的更新,包括概念的增加、修改、刪除,概念屬性的更新以及概念之間上下位關(guān)系的更新等。
其中,概念屬性的更新操作將直接影響到所有直接或間接屬性的子概念和實體。通常來說,模式層的增量更新方式消耗資源較少,但是多數(shù)情況下是在人工干預(yù)的情況下完成的,例如:需要人工定義規(guī)則,人工處理沖突等。因此,實施起來并不容易。
5.?知識圖譜應(yīng)用
知識圖譜為互聯(lián)網(wǎng)上海量、異構(gòu)、動態(tài)的大數(shù)據(jù)表達、組織、管理以及利用提供了一種更為有效的方式,使得網(wǎng)絡(luò)的智能化水平更高,更加接近于人類的認知思維。
目前,知識圖譜已在智能搜索、深度問答、社交網(wǎng)絡(luò)以及一些垂直行業(yè)中有所應(yīng)用,成為支撐這些應(yīng)用發(fā)展的動力源泉。
如下是總結(jié)的一些知識圖譜的應(yīng)用場景:
愿你我共勉~
作者:慕涵,知識圖譜類產(chǎn)品經(jīng)理,愛思考、愛分享,希望與每一位朋友互相交流自己的心得體會~
本文由 @慕涵 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
確實是淺談哦,哈哈
我也是知識圖譜類產(chǎn)品,交個朋友。你微信多少^_^
這么晚才看到:grin: ,lijinwei6033,有機會多討論~
我也是從事這一塊的親