知識圖譜是什么?

JM
8 評論 44871 瀏覽 206 收藏 12 分鐘

知識圖譜最開始是Google為了優(yōu)化搜索引擎提出來的,推出之后引起了業(yè)界轟動,隨后其他搜索公司也紛紛推出了他們的知識圖譜。知識圖譜發(fā)展到今天,不僅是應(yīng)用在搜索行業(yè),已經(jīng)是AI的基礎(chǔ)功能了。那到底知識圖譜是什么?有什么能力?怎么應(yīng)用?這就是本文想要討論的內(nèi)容。

01 什么是知識圖譜

1. 定義

官方定義:知識圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(point)和邊(Edge)組成,每個節(jié)點表示一個“實體”,每條邊為實體與實體之間的“關(guān)系”,知識圖譜本質(zhì)上是語義網(wǎng)絡(luò)。

實體指的可以是現(xiàn)實世界中的事物,比如人、地名、公司、電話、動物等;關(guān)系則用來表達(dá)不同實體之間的某種聯(lián)系。

由上圖,可以看到實體有地名和人;大理屬于云南、小明住在大理、小明和小秦是朋友,這些都是實體與實體之間的關(guān)系。

通俗定義:知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關(guān)系網(wǎng)絡(luò),因此知識圖譜提供了從“關(guān)系”的角度去分析問題的能力。

2. 可視化表現(xiàn)

如果我們在百度搜索“周杰倫的老婆”的時候,搜索結(jié)果不是周杰倫,而是直接返回了昆凌的信息卡片,為什么呢?

因為底層知識圖譜已經(jīng)有了周杰倫和昆凌是夫妻關(guān)系,所以可以理解到你要找的是昆凌,而不是周杰倫,這也說明了知識圖譜有理解用戶意圖的能力。

02 知識圖譜構(gòu)建的關(guān)鍵技術(shù)

知識圖譜構(gòu)建的過程中,最主要的一個步驟就是把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來,然后按一定的規(guī)則加入到知識圖譜中,這個過程我們稱為知識抽取

數(shù)據(jù)源的分為兩種:結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。

結(jié)構(gòu)化的數(shù)據(jù)是比較好處理的,難點在于處理非結(jié)構(gòu)化的數(shù)據(jù)。而處理非結(jié)構(gòu)化數(shù)據(jù)通常需要使用自然語言處理技術(shù):實體命名識別、關(guān)系抽取、實體統(tǒng)一、指代消解等。

我們先來看下把這段文字變成知識圖譜的方式表達(dá)的結(jié)果:

上圖左邊的文案就是一個非結(jié)構(gòu)化的文本數(shù)據(jù),就需要經(jīng)過一系列的技術(shù)處理,才能轉(zhuǎn)化為右邊的知識圖譜。具體是怎么實現(xiàn)的呢,接下來一一討論。

1. 實體命名識別

提取文本中的實體,并對每個實體進(jìn)行分類或打標(biāo)簽,比如把文中“1984年12月30日”記為“時間”類型;“克利夫蘭騎士”和“邁阿密熱火”記為“球隊”類型,這個過程就是實體命名。

2. 關(guān)系抽取

關(guān)系抽取是把實體之間的關(guān)系抽取出來的一項技術(shù),其中主要是根據(jù)文本中的一些關(guān)鍵詞,如“出生”、“在”、“轉(zhuǎn)會”等,我們就可以判斷詹姆斯與地點俄亥俄州、與邁阿密熱火等實體之間的關(guān)系。

3. 實體統(tǒng)一

在文本中可能同一個實體會有不同的寫法,比如說“LBJ”就是詹姆斯的縮寫,因此“勒布朗詹姆斯”和“LBJ”指的就是同一個實體,實體統(tǒng)一就是處理這樣問題的一項技術(shù)。

4. 指代消解

指代消解跟實體統(tǒng)一類似,都是處理同一個實體的問題。比如說文本中的“他”其實指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是,找出這些代詞,都指的是哪個實體。

指代消解和實體統(tǒng)一是知識抽取中比較難的環(huán)節(jié)。

03 知識圖譜的存儲

知識圖譜主要有兩種存儲方式:一種是基于RDF的存儲;另一種是基于圖數(shù)據(jù)庫的存儲。

1. RDF

RDF一個重要的設(shè)計原則是數(shù)據(jù)的易發(fā)布以及共享,另外,RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息。

2. 圖數(shù)據(jù)庫

圖數(shù)據(jù)庫主要把重點放在了高效的圖查詢和搜索上,一般以屬性圖為基本的表示形式,所以實體和關(guān)系可以包含屬性。

3. RDF和圖數(shù)據(jù)庫的主要特點區(qū)別

關(guān)于知識圖片的存儲方式的內(nèi)容比較專業(yè),且沒有實際操作過比較難理解,所以我就不在此展開討論了,大家簡單知道知識圖譜有這么一項內(nèi)容就行,若有需要的可以自行研究下。

下面我們把重點放在知識圖片在金融領(lǐng)域的一些應(yīng)用。

04 知識圖譜在金融領(lǐng)域的應(yīng)用

知識圖譜在各行各業(yè)中的應(yīng)用是比較普及的,并且有很重要的地位。下面我們跟大家一起討論的是知識圖譜在金融領(lǐng)域的一些應(yīng)用,希望能通過這些例子給大家一點啟發(fā)。

1. 反欺詐

假設(shè)銀行要借錢給一個人,那要怎么判斷這個人是真實用戶還是欺詐的呢?

我們需要以人為核心,展開一系列的數(shù)據(jù)構(gòu)建,比如說用戶的基本信息、借款記錄、工作信息、消費(fèi)記錄、行為記錄、網(wǎng)站瀏覽記錄等等。把這些信息整合到知識圖譜中。從而整體進(jìn)行預(yù)測和評分,用戶欺詐行為的概率有多大。當(dāng)然這個預(yù)測是需要通過機(jī)器學(xué)習(xí),得到一個合理的模型,模型中可能會包括消費(fèi)記錄的權(quán)重、網(wǎng)站瀏覽記錄的權(quán)重等等信息。

2. 不一致性驗證

比如說不同的兩個借款人,卻填寫了同一個電話號碼,那說明這兩個人中至少有一個是可疑的了,這時就需要重點關(guān)注了。

更復(fù)雜點的,可能需要知識圖譜通過一些關(guān)系去推理了。比如說“借款人”跟小明和小秦都是母子關(guān)系,按推理的話小明跟小秦應(yīng)該是兄弟關(guān)系,而在知識圖譜上顯示的是朋友關(guān)系,就有可能有異常了,因此也需要重點關(guān)注。

3. 客戶失聯(lián)管理

如果借款人失聯(lián)了,通過知識圖譜,是不是可以聯(lián)系他的朋友,或兄弟,甚至是兄弟的妻子,去追蹤失聯(lián)人。

因此在失聯(lián)的情況下,知識圖譜可以挖掘更多失聯(lián)人的聯(lián)系人,從而提高催收效率。

4. 知識推理

如上左圖(注意這里的箭頭方向),小秦是大秦的兒子,大秦是老秦的兒子,從這這樣的關(guān)系,我們就可以推理出,小秦是老秦的孫子,這樣就能使知識圖譜更加完善了。

如上左圖,小明在騰訊上班,小秦也在騰訊上班,從這樣的關(guān)系,我們可以推理出,小明和小秦是同事關(guān)系。

推理能力其實就是機(jī)器模仿人的一種重要的能力,可以從已有的知識中發(fā)現(xiàn)一些隱藏的知識。當(dāng)然這樣的能力離不開深度學(xué)習(xí),而隨著深度學(xué)習(xí)的不斷成熟,我相信知識圖譜的能力也會越來越強(qiáng)大。

在此就介紹完了知識圖譜的一些簡單知識,在寫這篇文章的同時,也參考了很多業(yè)界優(yōu)秀大佬的文章,感謝各位大佬的無私分享。

參考文章

  • 《淺談知識圖譜基礎(chǔ)》_我偏笑_NSNirvana
  • 《“知識圖譜”項目,需產(chǎn)品經(jīng)理考慮的幾點問題》_博斌_20190218
  • 《【知識圖譜】項目前期產(chǎn)品經(jīng)理需要做哪些準(zhǔn)備》_Jasmine
  • 《知識圖譜的應(yīng)用》_惠普大數(shù)據(jù)李文哲
  • 《干貨 | 從零到一學(xué)習(xí)知識圖譜的技術(shù)與應(yīng)用》_李文哲
  • 《知識圖譜及其變種在行業(yè)實踐中的應(yīng)用與思考》_中興-陳虹

 

本文由 @Jimmy 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 感謝大佬科普!

    來自江蘇 回復(fù)
  2. 寫的很通俗易懂

    來自北京 回復(fù)
  3. 感謝科普

    來自北京 回復(fù)
  4. 感謝老的分享的干貨

    來自北京 回復(fù)
  5. 感謝大佬分享

    回復(fù)
  6. 能介紹下知識圖譜在機(jī)器人對話領(lǐng)域中的應(yīng)用嗎?

    來自浙江 回復(fù)
  7. 學(xué)習(xí)了,感謝分享!

    回復(fù)
  8. 好頂贊!

    來自四川 回復(fù)