知識圖譜是什么?
知識圖譜最開始是Google為了優(yōu)化搜索引擎提出來的,推出之后引起了業(yè)界轟動,隨后其他搜索公司也紛紛推出了他們的知識圖譜。知識圖譜發(fā)展到今天,不僅是應(yīng)用在搜索行業(yè),已經(jīng)是AI的基礎(chǔ)功能了。那到底知識圖譜是什么?有什么能力?怎么應(yīng)用?這就是本文想要討論的內(nèi)容。
01 什么是知識圖譜
1. 定義
官方定義:知識圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(point)和邊(Edge)組成,每個節(jié)點表示一個“實體”,每條邊為實體與實體之間的“關(guān)系”,知識圖譜本質(zhì)上是語義網(wǎng)絡(luò)。
實體指的可以是現(xiàn)實世界中的事物,比如人、地名、公司、電話、動物等;關(guān)系則用來表達(dá)不同實體之間的某種聯(lián)系。
由上圖,可以看到實體有地名和人;大理屬于云南、小明住在大理、小明和小秦是朋友,這些都是實體與實體之間的關(guān)系。
通俗定義:知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關(guān)系網(wǎng)絡(luò),因此知識圖譜提供了從“關(guān)系”的角度去分析問題的能力。
2. 可視化表現(xiàn)
如果我們在百度搜索“周杰倫的老婆”的時候,搜索結(jié)果不是周杰倫,而是直接返回了昆凌的信息卡片,為什么呢?
因為底層知識圖譜已經(jīng)有了周杰倫和昆凌是夫妻關(guān)系,所以可以理解到你要找的是昆凌,而不是周杰倫,這也說明了知識圖譜有理解用戶意圖的能力。
02 知識圖譜構(gòu)建的關(guān)鍵技術(shù)
知識圖譜構(gòu)建的過程中,最主要的一個步驟就是把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來,然后按一定的規(guī)則加入到知識圖譜中,這個過程我們稱為知識抽取。
數(shù)據(jù)源的分為兩種:結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。
結(jié)構(gòu)化的數(shù)據(jù)是比較好處理的,難點在于處理非結(jié)構(gòu)化的數(shù)據(jù)。而處理非結(jié)構(gòu)化數(shù)據(jù)通常需要使用自然語言處理技術(shù):實體命名識別、關(guān)系抽取、實體統(tǒng)一、指代消解等。
我們先來看下把這段文字變成知識圖譜的方式表達(dá)的結(jié)果:
上圖左邊的文案就是一個非結(jié)構(gòu)化的文本數(shù)據(jù),就需要經(jīng)過一系列的技術(shù)處理,才能轉(zhuǎn)化為右邊的知識圖譜。具體是怎么實現(xiàn)的呢,接下來一一討論。
1. 實體命名識別
提取文本中的實體,并對每個實體進(jìn)行分類或打標(biāo)簽,比如把文中“1984年12月30日”記為“時間”類型;“克利夫蘭騎士”和“邁阿密熱火”記為“球隊”類型,這個過程就是實體命名。
2. 關(guān)系抽取
關(guān)系抽取是把實體之間的關(guān)系抽取出來的一項技術(shù),其中主要是根據(jù)文本中的一些關(guān)鍵詞,如“出生”、“在”、“轉(zhuǎn)會”等,我們就可以判斷詹姆斯與地點俄亥俄州、與邁阿密熱火等實體之間的關(guān)系。
3. 實體統(tǒng)一
在文本中可能同一個實體會有不同的寫法,比如說“LBJ”就是詹姆斯的縮寫,因此“勒布朗詹姆斯”和“LBJ”指的就是同一個實體,實體統(tǒng)一就是處理這樣問題的一項技術(shù)。
4. 指代消解
指代消解跟實體統(tǒng)一類似,都是處理同一個實體的問題。比如說文本中的“他”其實指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是,找出這些代詞,都指的是哪個實體。
指代消解和實體統(tǒng)一是知識抽取中比較難的環(huán)節(jié)。
03 知識圖譜的存儲
知識圖譜主要有兩種存儲方式:一種是基于RDF的存儲;另一種是基于圖數(shù)據(jù)庫的存儲。
1. RDF
RDF一個重要的設(shè)計原則是數(shù)據(jù)的易發(fā)布以及共享,另外,RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息。
2. 圖數(shù)據(jù)庫
圖數(shù)據(jù)庫主要把重點放在了高效的圖查詢和搜索上,一般以屬性圖為基本的表示形式,所以實體和關(guān)系可以包含屬性。
3. RDF和圖數(shù)據(jù)庫的主要特點區(qū)別
關(guān)于知識圖片的存儲方式的內(nèi)容比較專業(yè),且沒有實際操作過比較難理解,所以我就不在此展開討論了,大家簡單知道知識圖譜有這么一項內(nèi)容就行,若有需要的可以自行研究下。
下面我們把重點放在知識圖片在金融領(lǐng)域的一些應(yīng)用。
04 知識圖譜在金融領(lǐng)域的應(yīng)用
知識圖譜在各行各業(yè)中的應(yīng)用是比較普及的,并且有很重要的地位。下面我們跟大家一起討論的是知識圖譜在金融領(lǐng)域的一些應(yīng)用,希望能通過這些例子給大家一點啟發(fā)。
1. 反欺詐
假設(shè)銀行要借錢給一個人,那要怎么判斷這個人是真實用戶還是欺詐的呢?
我們需要以人為核心,展開一系列的數(shù)據(jù)構(gòu)建,比如說用戶的基本信息、借款記錄、工作信息、消費(fèi)記錄、行為記錄、網(wǎng)站瀏覽記錄等等。把這些信息整合到知識圖譜中。從而整體進(jìn)行預(yù)測和評分,用戶欺詐行為的概率有多大。當(dāng)然這個預(yù)測是需要通過機(jī)器學(xué)習(xí),得到一個合理的模型,模型中可能會包括消費(fèi)記錄的權(quán)重、網(wǎng)站瀏覽記錄的權(quán)重等等信息。
2. 不一致性驗證
比如說不同的兩個借款人,卻填寫了同一個電話號碼,那說明這兩個人中至少有一個是可疑的了,這時就需要重點關(guān)注了。
更復(fù)雜點的,可能需要知識圖譜通過一些關(guān)系去推理了。比如說“借款人”跟小明和小秦都是母子關(guān)系,按推理的話小明跟小秦應(yīng)該是兄弟關(guān)系,而在知識圖譜上顯示的是朋友關(guān)系,就有可能有異常了,因此也需要重點關(guān)注。
3. 客戶失聯(lián)管理
如果借款人失聯(lián)了,通過知識圖譜,是不是可以聯(lián)系他的朋友,或兄弟,甚至是兄弟的妻子,去追蹤失聯(lián)人。
因此在失聯(lián)的情況下,知識圖譜可以挖掘更多失聯(lián)人的聯(lián)系人,從而提高催收效率。
4. 知識推理
如上左圖(注意這里的箭頭方向),小秦是大秦的兒子,大秦是老秦的兒子,從這這樣的關(guān)系,我們就可以推理出,小秦是老秦的孫子,這樣就能使知識圖譜更加完善了。
如上左圖,小明在騰訊上班,小秦也在騰訊上班,從這樣的關(guān)系,我們可以推理出,小明和小秦是同事關(guān)系。
推理能力其實就是機(jī)器模仿人的一種重要的能力,可以從已有的知識中發(fā)現(xiàn)一些隱藏的知識。當(dāng)然這樣的能力離不開深度學(xué)習(xí),而隨著深度學(xué)習(xí)的不斷成熟,我相信知識圖譜的能力也會越來越強(qiáng)大。
在此就介紹完了知識圖譜的一些簡單知識,在寫這篇文章的同時,也參考了很多業(yè)界優(yōu)秀大佬的文章,感謝各位大佬的無私分享。
參考文章
- 《淺談知識圖譜基礎(chǔ)》_我偏笑_NSNirvana
- 《“知識圖譜”項目,需產(chǎn)品經(jīng)理考慮的幾點問題》_博斌_20190218
- 《【知識圖譜】項目前期產(chǎn)品經(jīng)理需要做哪些準(zhǔn)備》_Jasmine
- 《知識圖譜的應(yīng)用》_惠普大數(shù)據(jù)李文哲
- 《干貨 | 從零到一學(xué)習(xí)知識圖譜的技術(shù)與應(yīng)用》_李文哲
- 《知識圖譜及其變種在行業(yè)實踐中的應(yīng)用與思考》_中興-陳虹
本文由 @Jimmy 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
感謝大佬科普!
寫的很通俗易懂
感謝科普
感謝老的分享的干貨
感謝大佬分享
能介紹下知識圖譜在機(jī)器人對話領(lǐng)域中的應(yīng)用嗎?
學(xué)習(xí)了,感謝分享!
好頂贊!