知識圖譜發(fā)展的難點&構(gòu)建行業(yè)知識圖譜的重要性
知識圖譜又稱為科學(xué)知識圖譜,在圖書情報界稱為知識域可視化,或知識領(lǐng)域映射地圖,用來顯示知識發(fā)展進程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識資源及載體,挖掘、分析、構(gòu)建、繪制和顯示知識及他們互相之間的關(guān)系。
一、概述
盡管人工智能依靠機器學(xué)習(xí)和深度學(xué)習(xí)取得了快速進展,但這些都是弱人工智能,對于機器的訓(xùn)練,需要人類的監(jiān)督以及大量的數(shù)據(jù)來喂養(yǎng),更有甚者需要人手動對數(shù)據(jù)進行標(biāo)記,對于強人工智能而言,這是不可取的。要實現(xiàn)真正的類人智能,機器需要掌握大量的常識性知識,以人的思維模式和知識結(jié)構(gòu)來進行語言理解、視覺場景解析和決策分析。
二、什么是知識圖譜
百度百科定義:知識圖譜又稱為科學(xué)知識圖譜,在圖書情報界稱為知識域可視化,或知識領(lǐng)域映射地圖,用來顯示知識發(fā)展進程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識資源及載體,挖掘、分析、構(gòu)建、繪制和顯示知識及他們互相之間的關(guān)系。
乳腺癌知識圖譜
三、為什么需要知識圖譜
- 知識圖譜把復(fù)雜的知識領(lǐng)域及知識體系通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制顯示出來,表示該領(lǐng)域的發(fā)展動態(tài)及規(guī)律,為該領(lǐng)域的研究提供全方位、整體性、關(guān)系鏈的參考。
- 知識圖譜是智能社會的重要生產(chǎn)資料,如果把人工智能比作一個“大腦”,那么深度學(xué)習(xí)是“大腦”的運轉(zhuǎn)方式,知識圖譜則是“大腦”的知識庫,而大數(shù)據(jù)、GPU并行計算和高性能計算等支撐技術(shù)就是“大腦”思維運轉(zhuǎn)的支撐。
- 知識圖譜是真實世界的語義表示,其中每一個節(jié)點代表實體連接節(jié)點的邊則對應(yīng)實體之間的關(guān)系異構(gòu)數(shù)據(jù)通過整合表達為知識,圖的表達映射了人類對世界的認(rèn)知方式,知識圖譜非常適合整合非結(jié)構(gòu)化數(shù)據(jù)從零散數(shù)據(jù)中發(fā)現(xiàn)知識,從而幫助組織機構(gòu)實現(xiàn)業(yè)務(wù)智能化。
四、知識圖譜的誕生
當(dāng)你對陌生領(lǐng)域進行學(xué)習(xí)時,無法把握要點及整體框架,以至于檢索效率低、入門無道時,知識圖譜應(yīng)運而生。
自2012年5月,Google將知識圖譜應(yīng)用到其搜索引擎,以提升其搜索服務(wù)能力,將各種渠道收集而來的相關(guān)信息展示在搜索結(jié)果旁的信息框中,以結(jié)構(gòu)化模塊形式提供給用戶。
主要從三個方面提升了其搜索效果:
- 語言的多義性,展示差異化結(jié)果,縮小搜索范圍。
- 信息的關(guān)聯(lián)性,理解總結(jié)信息間的關(guān)聯(lián),理解事物的相關(guān)性。
- 體系的廣泛性,構(gòu)建完整的知識體系,發(fā)現(xiàn)新的事實或新的聯(lián)系,促進一系列全新的搜索查詢。
google知識圖譜展示
五、知識圖譜的原理
知識圖譜以結(jié)構(gòu)化數(shù)據(jù)處理,運用三元體,點、線、面的方式表示本體之間的關(guān)系,利用關(guān)系來組織所有的對象(實體),形成有向圖結(jié)構(gòu)。所謂知識,指的是點或邊對應(yīng)的信息。
知識圖譜以語義分析技術(shù)為基礎(chǔ),以模型為核心,基于數(shù)據(jù),利用深度神經(jīng)網(wǎng)絡(luò)、NLP框架語義理解等智能處理技術(shù)對輸入的字、詞、篇章進行多層次、多維度的信息分析,提供可遠(yuǎn)程調(diào)用的實體抽取、關(guān)系抽取和屬性抽取等算法服務(wù)接口能力。達到構(gòu)建多領(lǐng)域知識圖譜平臺,服務(wù)不同行業(yè)和應(yīng)用場景。
知識圖譜相關(guān)技術(shù)
構(gòu)建知識圖譜是一個迭代更新的過程,根據(jù)知識獲取的邏輯,每一輪迭代可分為三個階段:
- 信息抽取:從各種類型的數(shù)據(jù)源中提取出實體、屬性以及實體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識表達;
- 知識融合:在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,比如:某些實體可能有多種表達,某個特定稱謂也許對應(yīng)于多個不同的實體等;
- 知識加工:對于經(jīng)過融合的新知識,需要經(jīng)過質(zhì)量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質(zhì)量。
知識圖譜技術(shù)架構(gòu)
六、知識圖譜的發(fā)展方向
“純粹的通用型人工智能沒有任何意義,人工智能未來的方向一定是行業(yè)化?!?/p>
因此行業(yè)知識圖譜的構(gòu)建顯得尤為重要,首先,構(gòu)建行業(yè)知識圖譜系統(tǒng)應(yīng)以海量數(shù)據(jù)匯聚融合、快速感知和認(rèn)知、強大的分析和推理、自適應(yīng)與自優(yōu)化和行業(yè)智能決策為導(dǎo)向。
下面介紹一下通用知識圖譜與行業(yè)知識圖譜構(gòu)建的區(qū)別:
通用知識圖譜以互聯(lián)網(wǎng)開放數(shù)據(jù)為基礎(chǔ),如維基百科或社區(qū)眾包為主要來源,逐步擴大規(guī)模。以三元組事實型知識為主,較多的面向開放域的Web抽取,對知識抽取的質(zhì)量有一定容忍度,以知識融合提升數(shù)據(jù)質(zhì)量,應(yīng)用領(lǐng)域主要在搜索和問答方面,對推理要求較低。如:百度、谷歌、雅虎等等
行業(yè)知識圖譜以領(lǐng)域或企業(yè)內(nèi)部的數(shù)據(jù)為主要來源,通常要求快速擴大規(guī)模,構(gòu)建行業(yè)壁壘,知識結(jié)構(gòu)更加復(fù)雜,通常包含本體工程和規(guī)則型知識。知識抽取的質(zhì)量要求很高,較多的依靠從企業(yè)內(nèi)部的結(jié)構(gòu)化、非結(jié)構(gòu)化以及半結(jié)構(gòu)化數(shù)據(jù)進行聯(lián)合抽取需要依靠人工進行審核校驗,來保證質(zhì)量。通常需要融合多來源的領(lǐng)域是數(shù)據(jù)擴大規(guī)模的有效手段。應(yīng)用形式更加全面,除搜索問答外,還包括決策分析、業(yè)務(wù)管理等,并對推理的要求更高,并有較強的可解釋性要求。主要領(lǐng)域有電商、金融、農(nóng)業(yè)、安全、醫(yī)療等等
面向行業(yè)知識譜圖系統(tǒng)構(gòu)建
大數(shù)據(jù)的采集分析和計算力已經(jīng)不再是阻礙,難點在于算法背后的知識圖譜構(gòu)建。實際中,企業(yè)數(shù)據(jù)和業(yè)務(wù)變化靈活,因此數(shù)據(jù)源、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)內(nèi)容隨時會發(fā)生變動,對業(yè)務(wù)的理解以及對數(shù)據(jù)的解讀也隨之發(fā)生變化。因此,建立實時敏捷、靈活可擴展、智能自適應(yīng)的動態(tài)知識圖譜尤為重要。
七、行業(yè)知識圖譜的重要性
由于IT時代的快速發(fā)展,形成了數(shù)據(jù)的聚集。促進了正在來臨DT時代,數(shù)據(jù)與算法作為基礎(chǔ)為知識圖譜的構(gòu)建提供了新的可能性,而知識圖譜作為AI的支撐基礎(chǔ),雖然發(fā)展緩慢,卻是人工智能的必經(jīng)之路。由于其在語義搜索、智能問答、數(shù)據(jù)分析、自然語言處理、視覺理解、物聯(lián)網(wǎng)設(shè)備已展現(xiàn)出越來越大的價值。
比如:上一篇文章中提到的基于語音對話系統(tǒng)構(gòu)建的機器人,要想機器人好玩有趣,就需要建立通用知識圖譜,使機器人具有強大的邏輯,了解人與人關(guān)系,人與物的關(guān)系,人的屬性、物的屬性,理解人類世界的關(guān)系鏈,靈活應(yīng)對用戶的各種聊天需求,使機器具有類人智能。而行業(yè)知識圖譜則幫助用戶解答關(guān)于行業(yè)的任務(wù)型需求,輔助用戶決策,反向幫助人類學(xué)習(xí)。
如今,人工智能屬于發(fā)展初期,主要以技術(shù)驅(qū)動行業(yè)發(fā)展,屬于拿著錘子找釘子的時期,企業(yè)在以行業(yè)+AI為核心的同時,也應(yīng)重視行業(yè)+知識圖譜。因為未來技術(shù)肯定不是公司的核心競爭力,而多年積累的行業(yè)數(shù)據(jù)才是壁壘。數(shù)據(jù)養(yǎng)育AI,AI反哺數(shù)據(jù)。
行業(yè)知識圖譜在很多領(lǐng)域已經(jīng)有了很好的應(yīng)用。
例如:天眼查、企查查的企業(yè)知識圖譜,數(shù)據(jù)包括:企業(yè)基礎(chǔ)數(shù)據(jù)、投資關(guān)系、任職關(guān)系、企業(yè)專利數(shù)據(jù)、企業(yè)招標(biāo)數(shù)據(jù)、企業(yè)招聘數(shù)據(jù)、企業(yè)訴訟數(shù)據(jù)、企業(yè)失信數(shù)據(jù)、企業(yè)新聞數(shù)據(jù);
企業(yè)知識圖譜
利用知識圖譜融合以上數(shù)據(jù),制作企業(yè)知識圖譜,并在企業(yè)知識圖譜之上利用圖譜特性,針對金融業(yè)務(wù)場景做一系列應(yīng)用。
(1)企業(yè)風(fēng)險評估
基于企業(yè)基礎(chǔ)信息、投資關(guān)系、訴訟、失信等多維度關(guān)聯(lián)數(shù)據(jù),利用圖計算等方法構(gòu)建科學(xué)、嚴(yán)謹(jǐn)?shù)钠髽I(yè)風(fēng)險評估體系,有效規(guī)避潛在的經(jīng)營風(fēng)險與資金風(fēng)險。
(2)企業(yè)社交圖譜
基于投資、任職、專利、招標(biāo)股、涉訴關(guān)系以目標(biāo)企業(yè)為核心向外層擴散,形成一個網(wǎng)絡(luò)關(guān)系圖,直觀立體展現(xiàn)企業(yè)關(guān)聯(lián)。
(3)企業(yè)掌權(quán)人
基于股權(quán)投資關(guān)系尋找持股比例最大的股東,最終追溯至自然人或國有資產(chǎn)管理部門。
(4)企業(yè)關(guān)聯(lián)路徑
基于股權(quán)、任職、專利、招標(biāo)股、涉訴關(guān)系形成的網(wǎng)絡(luò)關(guān)系中、查詢企業(yè)之間的最短路徑,衡量企業(yè)之間的關(guān)系密切度。
(5)企業(yè)的發(fā)展歷程
基于企業(yè)知識圖譜中的投融資事件的時間順序,記錄企業(yè)的發(fā)展歷程。
(6)企業(yè)信息的智能問答
用戶通過語音輸入,系統(tǒng)通過語音輸出給用戶想要的答案。
就寫這么多,希望能帶給各位一些思考。關(guān)于醫(yī)療知識圖譜、金融知識圖譜、農(nóng)業(yè)知識圖譜的應(yīng)用場景請自行查詢吧。
本文由 @阿拉燈神丁 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖作者提供
為什么不算呢? ??
我也是搞知識圖譜的,能否留個微信號一起交流下?
dandan-sbb
企業(yè)的知識圖譜可以是企業(yè)員工根據(jù)崗位運營提供“圖譜點“或者圖譜信息根據(jù)他們上級收集整理來匯總至我們參考下一步戰(zhàn)略,或者某些項目的風(fēng)險性受益性決定是否這么做能帶來受益,謝謝,雖然沒耐心看完,但我突然這么想到這個點
???沒怎么看懂你想表達什么觀點 ?? 知識圖譜的數(shù)據(jù)主要就是公司內(nèi)部數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù))、從我網(wǎng)上爬取得公開數(shù)據(jù)(非結(jié)構(gòu)化數(shù)據(jù))、第三方機構(gòu)數(shù)據(jù)(半結(jié)構(gòu)化數(shù)據(jù)),做知識圖譜肯定是為了優(yōu)化公司服務(wù)內(nèi)容,賦能行業(yè),做知識圖譜肯定是業(yè)務(wù)需要知識圖譜,不能為了做知識圖譜而做知識圖譜,這樣是沒有意義的。如果只是對關(guān)系有一定需求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫也是可以做的,就不用花費巨資采用知識圖譜的圖數(shù)據(jù)庫來做。如果沒有解決你的問題,歡迎進一步交流。