知識(shí)圖譜是什么?

JM
8 評(píng)論 44287 瀏覽 205 收藏 12 分鐘

知識(shí)圖譜最開始是Google為了優(yōu)化搜索引擎提出來的,推出之后引起了業(yè)界轟動(dòng),隨后其他搜索公司也紛紛推出了他們的知識(shí)圖譜。知識(shí)圖譜發(fā)展到今天,不僅是應(yīng)用在搜索行業(yè),已經(jīng)是AI的基礎(chǔ)功能了。那到底知識(shí)圖譜是什么?有什么能力?怎么應(yīng)用?這就是本文想要討論的內(nèi)容。

01 什么是知識(shí)圖譜

1. 定義

官方定義:知識(shí)圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(point)和邊(Edge)組成,每個(gè)節(jié)點(diǎn)表示一個(gè)“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”,知識(shí)圖譜本質(zhì)上是語義網(wǎng)絡(luò)。

實(shí)體指的可以是現(xiàn)實(shí)世界中的事物,比如人、地名、公司、電話、動(dòng)物等;關(guān)系則用來表達(dá)不同實(shí)體之間的某種聯(lián)系。

由上圖,可以看到實(shí)體有地名和人;大理屬于云南、小明住在大理、小明和小秦是朋友,這些都是實(shí)體與實(shí)體之間的關(guān)系。

通俗定義:知識(shí)圖譜就是把所有不同種類的信息連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò),因此知識(shí)圖譜提供了從“關(guān)系”的角度去分析問題的能力。

2. 可視化表現(xiàn)

如果我們?cè)诎俣人阉鳌爸芙軅惖睦掀拧钡臅r(shí)候,搜索結(jié)果不是周杰倫,而是直接返回了昆凌的信息卡片,為什么呢?

因?yàn)榈讓又R(shí)圖譜已經(jīng)有了周杰倫和昆凌是夫妻關(guān)系,所以可以理解到你要找的是昆凌,而不是周杰倫,這也說明了知識(shí)圖譜有理解用戶意圖的能力。

02 知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)

知識(shí)圖譜構(gòu)建的過程中,最主要的一個(gè)步驟就是把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來,然后按一定的規(guī)則加入到知識(shí)圖譜中,這個(gè)過程我們稱為知識(shí)抽取

數(shù)據(jù)源的分為兩種:結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。

結(jié)構(gòu)化的數(shù)據(jù)是比較好處理的,難點(diǎn)在于處理非結(jié)構(gòu)化的數(shù)據(jù)。而處理非結(jié)構(gòu)化數(shù)據(jù)通常需要使用自然語言處理技術(shù):實(shí)體命名識(shí)別、關(guān)系抽取、實(shí)體統(tǒng)一、指代消解等。

我們先來看下把這段文字變成知識(shí)圖譜的方式表達(dá)的結(jié)果:

上圖左邊的文案就是一個(gè)非結(jié)構(gòu)化的文本數(shù)據(jù),就需要經(jīng)過一系列的技術(shù)處理,才能轉(zhuǎn)化為右邊的知識(shí)圖譜。具體是怎么實(shí)現(xiàn)的呢,接下來一一討論。

1. 實(shí)體命名識(shí)別

提取文本中的實(shí)體,并對(duì)每個(gè)實(shí)體進(jìn)行分類或打標(biāo)簽,比如把文中“1984年12月30日”記為“時(shí)間”類型;“克利夫蘭騎士”和“邁阿密熱火”記為“球隊(duì)”類型,這個(gè)過程就是實(shí)體命名。

2. 關(guān)系抽取

關(guān)系抽取是把實(shí)體之間的關(guān)系抽取出來的一項(xiàng)技術(shù),其中主要是根據(jù)文本中的一些關(guān)鍵詞,如“出生”、“在”、“轉(zhuǎn)會(huì)”等,我們就可以判斷詹姆斯與地點(diǎn)俄亥俄州、與邁阿密熱火等實(shí)體之間的關(guān)系。

3. 實(shí)體統(tǒng)一

在文本中可能同一個(gè)實(shí)體會(huì)有不同的寫法,比如說“LBJ”就是詹姆斯的縮寫,因此“勒布朗詹姆斯”和“LBJ”指的就是同一個(gè)實(shí)體,實(shí)體統(tǒng)一就是處理這樣問題的一項(xiàng)技術(shù)。

4. 指代消解

指代消解跟實(shí)體統(tǒng)一類似,都是處理同一個(gè)實(shí)體的問題。比如說文本中的“他”其實(shí)指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是,找出這些代詞,都指的是哪個(gè)實(shí)體。

指代消解和實(shí)體統(tǒng)一是知識(shí)抽取中比較難的環(huán)節(jié)。

03 知識(shí)圖譜的存儲(chǔ)

知識(shí)圖譜主要有兩種存儲(chǔ)方式:一種是基于RDF的存儲(chǔ);另一種是基于圖數(shù)據(jù)庫的存儲(chǔ)。

1. RDF

RDF一個(gè)重要的設(shè)計(jì)原則是數(shù)據(jù)的易發(fā)布以及共享,另外,RDF以三元組的方式來存儲(chǔ)數(shù)據(jù)而且不包含屬性信息。

2. 圖數(shù)據(jù)庫

圖數(shù)據(jù)庫主要把重點(diǎn)放在了高效的圖查詢和搜索上,一般以屬性圖為基本的表示形式,所以實(shí)體和關(guān)系可以包含屬性。

3. RDF和圖數(shù)據(jù)庫的主要特點(diǎn)區(qū)別

關(guān)于知識(shí)圖片的存儲(chǔ)方式的內(nèi)容比較專業(yè),且沒有實(shí)際操作過比較難理解,所以我就不在此展開討論了,大家簡(jiǎn)單知道知識(shí)圖譜有這么一項(xiàng)內(nèi)容就行,若有需要的可以自行研究下。

下面我們把重點(diǎn)放在知識(shí)圖片在金融領(lǐng)域的一些應(yīng)用。

04 知識(shí)圖譜在金融領(lǐng)域的應(yīng)用

知識(shí)圖譜在各行各業(yè)中的應(yīng)用是比較普及的,并且有很重要的地位。下面我們跟大家一起討論的是知識(shí)圖譜在金融領(lǐng)域的一些應(yīng)用,希望能通過這些例子給大家一點(diǎn)啟發(fā)。

1. 反欺詐

假設(shè)銀行要借錢給一個(gè)人,那要怎么判斷這個(gè)人是真實(shí)用戶還是欺詐的呢?

我們需要以人為核心,展開一系列的數(shù)據(jù)構(gòu)建,比如說用戶的基本信息、借款記錄、工作信息、消費(fèi)記錄、行為記錄、網(wǎng)站瀏覽記錄等等。把這些信息整合到知識(shí)圖譜中。從而整體進(jìn)行預(yù)測(cè)和評(píng)分,用戶欺詐行為的概率有多大。當(dāng)然這個(gè)預(yù)測(cè)是需要通過機(jī)器學(xué)習(xí),得到一個(gè)合理的模型,模型中可能會(huì)包括消費(fèi)記錄的權(quán)重、網(wǎng)站瀏覽記錄的權(quán)重等等信息。

2. 不一致性驗(yàn)證

比如說不同的兩個(gè)借款人,卻填寫了同一個(gè)電話號(hào)碼,那說明這兩個(gè)人中至少有一個(gè)是可疑的了,這時(shí)就需要重點(diǎn)關(guān)注了。

更復(fù)雜點(diǎn)的,可能需要知識(shí)圖譜通過一些關(guān)系去推理了。比如說“借款人”跟小明和小秦都是母子關(guān)系,按推理的話小明跟小秦應(yīng)該是兄弟關(guān)系,而在知識(shí)圖譜上顯示的是朋友關(guān)系,就有可能有異常了,因此也需要重點(diǎn)關(guān)注。

3. 客戶失聯(lián)管理

如果借款人失聯(lián)了,通過知識(shí)圖譜,是不是可以聯(lián)系他的朋友,或兄弟,甚至是兄弟的妻子,去追蹤失聯(lián)人。

因此在失聯(lián)的情況下,知識(shí)圖譜可以挖掘更多失聯(lián)人的聯(lián)系人,從而提高催收效率。

4. 知識(shí)推理

如上左圖(注意這里的箭頭方向),小秦是大秦的兒子,大秦是老秦的兒子,從這這樣的關(guān)系,我們就可以推理出,小秦是老秦的孫子,這樣就能使知識(shí)圖譜更加完善了。

如上左圖,小明在騰訊上班,小秦也在騰訊上班,從這樣的關(guān)系,我們可以推理出,小明和小秦是同事關(guān)系。

推理能力其實(shí)就是機(jī)器模仿人的一種重要的能力,可以從已有的知識(shí)中發(fā)現(xiàn)一些隱藏的知識(shí)。當(dāng)然這樣的能力離不開深度學(xué)習(xí),而隨著深度學(xué)習(xí)的不斷成熟,我相信知識(shí)圖譜的能力也會(huì)越來越強(qiáng)大。

在此就介紹完了知識(shí)圖譜的一些簡(jiǎn)單知識(shí),在寫這篇文章的同時(shí),也參考了很多業(yè)界優(yōu)秀大佬的文章,感謝各位大佬的無私分享。

參考文章

  • 《淺談知識(shí)圖譜基礎(chǔ)》_我偏笑_NSNirvana
  • 《“知識(shí)圖譜”項(xiàng)目,需產(chǎn)品經(jīng)理考慮的幾點(diǎn)問題》_博斌_20190218
  • 《【知識(shí)圖譜】項(xiàng)目前期產(chǎn)品經(jīng)理需要做哪些準(zhǔn)備》_Jasmine
  • 《知識(shí)圖譜的應(yīng)用》_惠普大數(shù)據(jù)李文哲
  • 《干貨 | 從零到一學(xué)習(xí)知識(shí)圖譜的技術(shù)與應(yīng)用》_李文哲
  • 《知識(shí)圖譜及其變種在行業(yè)實(shí)踐中的應(yīng)用與思考》_中興-陳虹

 

本文由 @Jimmy 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 感謝大佬科普!

    來自江蘇 回復(fù)
  2. 寫的很通俗易懂

    來自北京 回復(fù)
  3. 感謝科普

    來自北京 回復(fù)
  4. 感謝老的分享的干貨

    來自北京 回復(fù)
  5. 感謝大佬分享

    回復(fù)
  6. 能介紹下知識(shí)圖譜在機(jī)器人對(duì)話領(lǐng)域中的應(yīng)用嗎?

    來自浙江 回復(fù)
  7. 學(xué)習(xí)了,感謝分享!

    回復(fù)
  8. 好頂贊!

    來自四川 回復(fù)