知識(shí)圖譜是什么?
知識(shí)圖譜最開始是Google為了優(yōu)化搜索引擎提出來的,推出之后引起了業(yè)界轟動(dòng),隨后其他搜索公司也紛紛推出了他們的知識(shí)圖譜。知識(shí)圖譜發(fā)展到今天,不僅是應(yīng)用在搜索行業(yè),已經(jīng)是AI的基礎(chǔ)功能了。那到底知識(shí)圖譜是什么?有什么能力?怎么應(yīng)用?這就是本文想要討論的內(nèi)容。
01 什么是知識(shí)圖譜
1. 定義
官方定義:知識(shí)圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(point)和邊(Edge)組成,每個(gè)節(jié)點(diǎn)表示一個(gè)“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”,知識(shí)圖譜本質(zhì)上是語義網(wǎng)絡(luò)。
實(shí)體指的可以是現(xiàn)實(shí)世界中的事物,比如人、地名、公司、電話、動(dòng)物等;關(guān)系則用來表達(dá)不同實(shí)體之間的某種聯(lián)系。
由上圖,可以看到實(shí)體有地名和人;大理屬于云南、小明住在大理、小明和小秦是朋友,這些都是實(shí)體與實(shí)體之間的關(guān)系。
通俗定義:知識(shí)圖譜就是把所有不同種類的信息連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò),因此知識(shí)圖譜提供了從“關(guān)系”的角度去分析問題的能力。
2. 可視化表現(xiàn)
如果我們?cè)诎俣人阉鳌爸芙軅惖睦掀拧钡臅r(shí)候,搜索結(jié)果不是周杰倫,而是直接返回了昆凌的信息卡片,為什么呢?
因?yàn)榈讓又R(shí)圖譜已經(jīng)有了周杰倫和昆凌是夫妻關(guān)系,所以可以理解到你要找的是昆凌,而不是周杰倫,這也說明了知識(shí)圖譜有理解用戶意圖的能力。
02 知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)
知識(shí)圖譜構(gòu)建的過程中,最主要的一個(gè)步驟就是把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來,然后按一定的規(guī)則加入到知識(shí)圖譜中,這個(gè)過程我們稱為知識(shí)抽取。
數(shù)據(jù)源的分為兩種:結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。
結(jié)構(gòu)化的數(shù)據(jù)是比較好處理的,難點(diǎn)在于處理非結(jié)構(gòu)化的數(shù)據(jù)。而處理非結(jié)構(gòu)化數(shù)據(jù)通常需要使用自然語言處理技術(shù):實(shí)體命名識(shí)別、關(guān)系抽取、實(shí)體統(tǒng)一、指代消解等。
我們先來看下把這段文字變成知識(shí)圖譜的方式表達(dá)的結(jié)果:
上圖左邊的文案就是一個(gè)非結(jié)構(gòu)化的文本數(shù)據(jù),就需要經(jīng)過一系列的技術(shù)處理,才能轉(zhuǎn)化為右邊的知識(shí)圖譜。具體是怎么實(shí)現(xiàn)的呢,接下來一一討論。
1. 實(shí)體命名識(shí)別
提取文本中的實(shí)體,并對(duì)每個(gè)實(shí)體進(jìn)行分類或打標(biāo)簽,比如把文中“1984年12月30日”記為“時(shí)間”類型;“克利夫蘭騎士”和“邁阿密熱火”記為“球隊(duì)”類型,這個(gè)過程就是實(shí)體命名。
2. 關(guān)系抽取
關(guān)系抽取是把實(shí)體之間的關(guān)系抽取出來的一項(xiàng)技術(shù),其中主要是根據(jù)文本中的一些關(guān)鍵詞,如“出生”、“在”、“轉(zhuǎn)會(huì)”等,我們就可以判斷詹姆斯與地點(diǎn)俄亥俄州、與邁阿密熱火等實(shí)體之間的關(guān)系。
3. 實(shí)體統(tǒng)一
在文本中可能同一個(gè)實(shí)體會(huì)有不同的寫法,比如說“LBJ”就是詹姆斯的縮寫,因此“勒布朗詹姆斯”和“LBJ”指的就是同一個(gè)實(shí)體,實(shí)體統(tǒng)一就是處理這樣問題的一項(xiàng)技術(shù)。
4. 指代消解
指代消解跟實(shí)體統(tǒng)一類似,都是處理同一個(gè)實(shí)體的問題。比如說文本中的“他”其實(shí)指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是,找出這些代詞,都指的是哪個(gè)實(shí)體。
指代消解和實(shí)體統(tǒng)一是知識(shí)抽取中比較難的環(huán)節(jié)。
03 知識(shí)圖譜的存儲(chǔ)
知識(shí)圖譜主要有兩種存儲(chǔ)方式:一種是基于RDF的存儲(chǔ);另一種是基于圖數(shù)據(jù)庫的存儲(chǔ)。
1. RDF
RDF一個(gè)重要的設(shè)計(jì)原則是數(shù)據(jù)的易發(fā)布以及共享,另外,RDF以三元組的方式來存儲(chǔ)數(shù)據(jù)而且不包含屬性信息。
2. 圖數(shù)據(jù)庫
圖數(shù)據(jù)庫主要把重點(diǎn)放在了高效的圖查詢和搜索上,一般以屬性圖為基本的表示形式,所以實(shí)體和關(guān)系可以包含屬性。
3. RDF和圖數(shù)據(jù)庫的主要特點(diǎn)區(qū)別
關(guān)于知識(shí)圖片的存儲(chǔ)方式的內(nèi)容比較專業(yè),且沒有實(shí)際操作過比較難理解,所以我就不在此展開討論了,大家簡(jiǎn)單知道知識(shí)圖譜有這么一項(xiàng)內(nèi)容就行,若有需要的可以自行研究下。
下面我們把重點(diǎn)放在知識(shí)圖片在金融領(lǐng)域的一些應(yīng)用。
04 知識(shí)圖譜在金融領(lǐng)域的應(yīng)用
知識(shí)圖譜在各行各業(yè)中的應(yīng)用是比較普及的,并且有很重要的地位。下面我們跟大家一起討論的是知識(shí)圖譜在金融領(lǐng)域的一些應(yīng)用,希望能通過這些例子給大家一點(diǎn)啟發(fā)。
1. 反欺詐
假設(shè)銀行要借錢給一個(gè)人,那要怎么判斷這個(gè)人是真實(shí)用戶還是欺詐的呢?
我們需要以人為核心,展開一系列的數(shù)據(jù)構(gòu)建,比如說用戶的基本信息、借款記錄、工作信息、消費(fèi)記錄、行為記錄、網(wǎng)站瀏覽記錄等等。把這些信息整合到知識(shí)圖譜中。從而整體進(jìn)行預(yù)測(cè)和評(píng)分,用戶欺詐行為的概率有多大。當(dāng)然這個(gè)預(yù)測(cè)是需要通過機(jī)器學(xué)習(xí),得到一個(gè)合理的模型,模型中可能會(huì)包括消費(fèi)記錄的權(quán)重、網(wǎng)站瀏覽記錄的權(quán)重等等信息。
2. 不一致性驗(yàn)證
比如說不同的兩個(gè)借款人,卻填寫了同一個(gè)電話號(hào)碼,那說明這兩個(gè)人中至少有一個(gè)是可疑的了,這時(shí)就需要重點(diǎn)關(guān)注了。
更復(fù)雜點(diǎn)的,可能需要知識(shí)圖譜通過一些關(guān)系去推理了。比如說“借款人”跟小明和小秦都是母子關(guān)系,按推理的話小明跟小秦應(yīng)該是兄弟關(guān)系,而在知識(shí)圖譜上顯示的是朋友關(guān)系,就有可能有異常了,因此也需要重點(diǎn)關(guān)注。
3. 客戶失聯(lián)管理
如果借款人失聯(lián)了,通過知識(shí)圖譜,是不是可以聯(lián)系他的朋友,或兄弟,甚至是兄弟的妻子,去追蹤失聯(lián)人。
因此在失聯(lián)的情況下,知識(shí)圖譜可以挖掘更多失聯(lián)人的聯(lián)系人,從而提高催收效率。
4. 知識(shí)推理
如上左圖(注意這里的箭頭方向),小秦是大秦的兒子,大秦是老秦的兒子,從這這樣的關(guān)系,我們就可以推理出,小秦是老秦的孫子,這樣就能使知識(shí)圖譜更加完善了。
如上左圖,小明在騰訊上班,小秦也在騰訊上班,從這樣的關(guān)系,我們可以推理出,小明和小秦是同事關(guān)系。
推理能力其實(shí)就是機(jī)器模仿人的一種重要的能力,可以從已有的知識(shí)中發(fā)現(xiàn)一些隱藏的知識(shí)。當(dāng)然這樣的能力離不開深度學(xué)習(xí),而隨著深度學(xué)習(xí)的不斷成熟,我相信知識(shí)圖譜的能力也會(huì)越來越強(qiáng)大。
在此就介紹完了知識(shí)圖譜的一些簡(jiǎn)單知識(shí),在寫這篇文章的同時(shí),也參考了很多業(yè)界優(yōu)秀大佬的文章,感謝各位大佬的無私分享。
參考文章
- 《淺談知識(shí)圖譜基礎(chǔ)》_我偏笑_NSNirvana
- 《“知識(shí)圖譜”項(xiàng)目,需產(chǎn)品經(jīng)理考慮的幾點(diǎn)問題》_博斌_20190218
- 《【知識(shí)圖譜】項(xiàng)目前期產(chǎn)品經(jīng)理需要做哪些準(zhǔn)備》_Jasmine
- 《知識(shí)圖譜的應(yīng)用》_惠普大數(shù)據(jù)李文哲
- 《干貨 | 從零到一學(xué)習(xí)知識(shí)圖譜的技術(shù)與應(yīng)用》_李文哲
- 《知識(shí)圖譜及其變種在行業(yè)實(shí)踐中的應(yīng)用與思考》_中興-陳虹
本文由 @Jimmy 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
感謝大佬科普!
寫的很通俗易懂
感謝科普
感謝老的分享的干貨
感謝大佬分享
能介紹下知識(shí)圖譜在機(jī)器人對(duì)話領(lǐng)域中的應(yīng)用嗎?
學(xué)習(xí)了,感謝分享!
好頂贊!