知識圖譜是什么?

JM
8 評論 44962 瀏覽 206 收藏 12 分鐘

知識圖譜最開始是Google為了優(yōu)化搜索引擎提出來的,推出之后引起了業(yè)界轟動(dòng),隨后其他搜索公司也紛紛推出了他們的知識圖譜。知識圖譜發(fā)展到今天,不僅是應(yīng)用在搜索行業(yè),已經(jīng)是AI的基礎(chǔ)功能了。那到底知識圖譜是什么?有什么能力?怎么應(yīng)用?這就是本文想要討論的內(nèi)容。

01 什么是知識圖譜

1. 定義

官方定義:知識圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(point)和邊(Edge)組成,每個(gè)節(jié)點(diǎn)表示一個(gè)“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”,知識圖譜本質(zhì)上是語義網(wǎng)絡(luò)。

實(shí)體指的可以是現(xiàn)實(shí)世界中的事物,比如人、地名、公司、電話、動(dòng)物等;關(guān)系則用來表達(dá)不同實(shí)體之間的某種聯(lián)系。

由上圖,可以看到實(shí)體有地名和人;大理屬于云南、小明住在大理、小明和小秦是朋友,這些都是實(shí)體與實(shí)體之間的關(guān)系。

通俗定義:知識圖譜就是把所有不同種類的信息連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò),因此知識圖譜提供了從“關(guān)系”的角度去分析問題的能力。

2. 可視化表現(xiàn)

如果我們在百度搜索“周杰倫的老婆”的時(shí)候,搜索結(jié)果不是周杰倫,而是直接返回了昆凌的信息卡片,為什么呢?

因?yàn)榈讓又R圖譜已經(jīng)有了周杰倫和昆凌是夫妻關(guān)系,所以可以理解到你要找的是昆凌,而不是周杰倫,這也說明了知識圖譜有理解用戶意圖的能力。

02 知識圖譜構(gòu)建的關(guān)鍵技術(shù)

知識圖譜構(gòu)建的過程中,最主要的一個(gè)步驟就是把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來,然后按一定的規(guī)則加入到知識圖譜中,這個(gè)過程我們稱為知識抽取。

數(shù)據(jù)源的分為兩種:結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。

結(jié)構(gòu)化的數(shù)據(jù)是比較好處理的,難點(diǎn)在于處理非結(jié)構(gòu)化的數(shù)據(jù)。而處理非結(jié)構(gòu)化數(shù)據(jù)通常需要使用自然語言處理技術(shù):實(shí)體命名識別、關(guān)系抽取、實(shí)體統(tǒng)一、指代消解等。

我們先來看下把這段文字變成知識圖譜的方式表達(dá)的結(jié)果:

上圖左邊的文案就是一個(gè)非結(jié)構(gòu)化的文本數(shù)據(jù),就需要經(jīng)過一系列的技術(shù)處理,才能轉(zhuǎn)化為右邊的知識圖譜。具體是怎么實(shí)現(xiàn)的呢,接下來一一討論。

1. 實(shí)體命名識別

提取文本中的實(shí)體,并對每個(gè)實(shí)體進(jìn)行分類或打標(biāo)簽,比如把文中“1984年12月30日”記為“時(shí)間”類型;“克利夫蘭騎士”和“邁阿密熱火”記為“球隊(duì)”類型,這個(gè)過程就是實(shí)體命名。

2. 關(guān)系抽取

關(guān)系抽取是把實(shí)體之間的關(guān)系抽取出來的一項(xiàng)技術(shù),其中主要是根據(jù)文本中的一些關(guān)鍵詞,如“出生”、“在”、“轉(zhuǎn)會(huì)”等,我們就可以判斷詹姆斯與地點(diǎn)俄亥俄州、與邁阿密熱火等實(shí)體之間的關(guān)系。

3. 實(shí)體統(tǒng)一

在文本中可能同一個(gè)實(shí)體會(huì)有不同的寫法,比如說“LBJ”就是詹姆斯的縮寫,因此“勒布朗詹姆斯”和“LBJ”指的就是同一個(gè)實(shí)體,實(shí)體統(tǒng)一就是處理這樣問題的一項(xiàng)技術(shù)。

4. 指代消解

指代消解跟實(shí)體統(tǒng)一類似,都是處理同一個(gè)實(shí)體的問題。比如說文本中的“他”其實(shí)指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是,找出這些代詞,都指的是哪個(gè)實(shí)體。

指代消解和實(shí)體統(tǒng)一是知識抽取中比較難的環(huán)節(jié)。

03 知識圖譜的存儲

知識圖譜主要有兩種存儲方式:一種是基于RDF的存儲;另一種是基于圖數(shù)據(jù)庫的存儲。

1. RDF

RDF一個(gè)重要的設(shè)計(jì)原則是數(shù)據(jù)的易發(fā)布以及共享,另外,RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息。

2. 圖數(shù)據(jù)庫

圖數(shù)據(jù)庫主要把重點(diǎn)放在了高效的圖查詢和搜索上,一般以屬性圖為基本的表示形式,所以實(shí)體和關(guān)系可以包含屬性。

3. RDF和圖數(shù)據(jù)庫的主要特點(diǎn)區(qū)別

關(guān)于知識圖片的存儲方式的內(nèi)容比較專業(yè),且沒有實(shí)際操作過比較難理解,所以我就不在此展開討論了,大家簡單知道知識圖譜有這么一項(xiàng)內(nèi)容就行,若有需要的可以自行研究下。

下面我們把重點(diǎn)放在知識圖片在金融領(lǐng)域的一些應(yīng)用。

04 知識圖譜在金融領(lǐng)域的應(yīng)用

知識圖譜在各行各業(yè)中的應(yīng)用是比較普及的,并且有很重要的地位。下面我們跟大家一起討論的是知識圖譜在金融領(lǐng)域的一些應(yīng)用,希望能通過這些例子給大家一點(diǎn)啟發(fā)。

1. 反欺詐

假設(shè)銀行要借錢給一個(gè)人,那要怎么判斷這個(gè)人是真實(shí)用戶還是欺詐的呢?

我們需要以人為核心,展開一系列的數(shù)據(jù)構(gòu)建,比如說用戶的基本信息、借款記錄、工作信息、消費(fèi)記錄、行為記錄、網(wǎng)站瀏覽記錄等等。把這些信息整合到知識圖譜中。從而整體進(jìn)行預(yù)測和評分,用戶欺詐行為的概率有多大。當(dāng)然這個(gè)預(yù)測是需要通過機(jī)器學(xué)習(xí),得到一個(gè)合理的模型,模型中可能會(huì)包括消費(fèi)記錄的權(quán)重、網(wǎng)站瀏覽記錄的權(quán)重等等信息。

2. 不一致性驗(yàn)證

比如說不同的兩個(gè)借款人,卻填寫了同一個(gè)電話號碼,那說明這兩個(gè)人中至少有一個(gè)是可疑的了,這時(shí)就需要重點(diǎn)關(guān)注了。

更復(fù)雜點(diǎn)的,可能需要知識圖譜通過一些關(guān)系去推理了。比如說“借款人”跟小明和小秦都是母子關(guān)系,按推理的話小明跟小秦應(yīng)該是兄弟關(guān)系,而在知識圖譜上顯示的是朋友關(guān)系,就有可能有異常了,因此也需要重點(diǎn)關(guān)注。

3. 客戶失聯(lián)管理

如果借款人失聯(lián)了,通過知識圖譜,是不是可以聯(lián)系他的朋友,或兄弟,甚至是兄弟的妻子,去追蹤失聯(lián)人。

因此在失聯(lián)的情況下,知識圖譜可以挖掘更多失聯(lián)人的聯(lián)系人,從而提高催收效率。

4. 知識推理

如上左圖(注意這里的箭頭方向),小秦是大秦的兒子,大秦是老秦的兒子,從這這樣的關(guān)系,我們就可以推理出,小秦是老秦的孫子,這樣就能使知識圖譜更加完善了。

如上左圖,小明在騰訊上班,小秦也在騰訊上班,從這樣的關(guān)系,我們可以推理出,小明和小秦是同事關(guān)系。

推理能力其實(shí)就是機(jī)器模仿人的一種重要的能力,可以從已有的知識中發(fā)現(xiàn)一些隱藏的知識。當(dāng)然這樣的能力離不開深度學(xué)習(xí),而隨著深度學(xué)習(xí)的不斷成熟,我相信知識圖譜的能力也會(huì)越來越強(qiáng)大。

在此就介紹完了知識圖譜的一些簡單知識,在寫這篇文章的同時(shí),也參考了很多業(yè)界優(yōu)秀大佬的文章,感謝各位大佬的無私分享。

參考文章

  • 《淺談知識圖譜基礎(chǔ)》_我偏笑_NSNirvana
  • 《“知識圖譜”項(xiàng)目,需產(chǎn)品經(jīng)理考慮的幾點(diǎn)問題》_博斌_20190218
  • 《【知識圖譜】項(xiàng)目前期產(chǎn)品經(jīng)理需要做哪些準(zhǔn)備》_Jasmine
  • 《知識圖譜的應(yīng)用》_惠普大數(shù)據(jù)李文哲
  • 《干貨 | 從零到一學(xué)習(xí)知識圖譜的技術(shù)與應(yīng)用》_李文哲
  • 《知識圖譜及其變種在行業(yè)實(shí)踐中的應(yīng)用與思考》_中興-陳虹

 

本文由 @Jimmy 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
"="" class="meta">04-194857 瀏覽
"="" class="meta">
"="" class="meta"> "="" src="https://image.woshipm.com/wp-files/2023/04/GgUiEM4oNAc8DUchMgNG.jpg!/both/120x80" alt="B端產(chǎn)品設(shè)計(jì)如何做到「情懷」與「效率」兼?zhèn)洌?>
="" data-id="12">
"="" src="https://image.woshipm.com/wp-files/2023/04/GgUiEM4oNAc8DUchMgNG.jpg!/both/120x80" alt="B端產(chǎn)品設(shè)計(jì)如何做到「情懷」與「效率」兼?zhèn)洌?>
="" data-id="12">
"="" src="https://image.woshipm.com/wp-files/2023/04/GgUiEM4oNAc8DUchMgNG.jpg!/both/120x80" alt="B端產(chǎn)品設(shè)計(jì)如何做到「情懷」與「效率」兼?zhèn)洌?>
="" data-id="12">
"="" src="https://image.woshipm.com/wp-files/2023/04/GgUiEM4oNAc8DUchMgNG.jpg!/both/120x80" alt="B端產(chǎn)品設(shè)計(jì)如何做到「情懷」與「效率」兼?zhèn)洌?>
="" data-id="12">
"="" src="https://image.woshipm.com/wp-files/2023/04/GgUiEM4oNAc8DUchMgNG.jpg!/both/120x80" alt="B端產(chǎn)品設(shè)計(jì)如何做到「情懷」與「效率」兼?zhèn)洌?>
="" data-id="12">當(dāng)眾多App開通了自動(dòng)續(xù)費(fèi)
03-023199 瀏覽
當(dāng)眾多App開通了自動(dòng)續(xù)費(fèi)