免费无码中文字幕a级毛片hd,99热国产这里只有精品久久,久久99精品久久久久久野外

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

AI產(chǎn)品經(jīng)理必修課：知識圖譜的入門與應(yīng)用

AIPM1001

2019-09-04

2 評論 16940 瀏覽 112 收藏

13 分鐘

知識圖譜是AI的基礎(chǔ)功能，本篇文章筆者就知識圖譜是什么？如何構(gòu)建知識圖譜？怎么應(yīng)用？進行了討論分析，與大家分享。

一、人工智能時代已經(jīng)來臨

伴隨著全球智能手機銷量的首次下滑，移動互聯(lián)網(wǎng)已經(jīng)不可避免地步入了下半場。

與此同時，智能音箱銷量爆發(fā)式增長，ZAO換臉APP刷屏朋友圈……人工智能技術(shù)正在越來越深刻地影響人們的日常生活。

作為人工智能領(lǐng)域的核心技術(shù)之一，知識圖譜已經(jīng)成為了AI產(chǎn)品經(jīng)理必須掌握的基礎(chǔ)技能。

二、什么是知識圖譜？

1. 什么是知識？

在聊知識圖譜之前，我們先簡單了解下什么是知識。

下圖是在Quora（國外版知乎）上關(guān)于信息與知識的對比圖。

信息是雜亂無章的點，而知識相對來說更有邏輯性。在當(dāng)今這個信息爆炸的時代，知識對人們來說顯然更便于理解和記憶。

圖一，圖片出處：https://www.siilo.com/blog/information-vs-knowledge

2. 什么是知識圖譜？

知識圖譜（Knowledge Graph，簡稱KG）的概念由Google在2012年5月提出，初衷是希望借助網(wǎng)絡(luò)多源數(shù)據(jù)構(gòu)建的知識庫來增強語義搜索的效率和質(zhì)量。

Google知識圖譜團隊負責(zé)人Amit Singhal認為，“The world is not made of strings，but is made of things”。

知識圖譜的主要作用在于以結(jié)構(gòu)化的方式來描述客觀世界實體間的復(fù)雜關(guān)系。通過在信息與信息之間建立聯(lián)系，人類更加容易獲取自己所需要的知識。

3. 維基百科關(guān)于知識圖譜的介紹

知識圖譜是Google用于增強其搜索引擎功能的知識庫。

本質(zhì)上, 知識圖譜旨在描述真實世界中存在的各種實體或概念及其關(guān)系，其構(gòu)成了一張巨大的語義網(wǎng)絡(luò)圖，節(jié)點表示實體或概念，邊則由屬性或關(guān)系構(gòu)成。

三、如何構(gòu)建知識圖譜？

知識圖譜的構(gòu)建主要分為知識體系構(gòu)建、知識獲取、知識融合、知識存儲和檢索、知識推理、知識應(yīng)用六個步驟。

下面是產(chǎn)品視角的知識圖譜構(gòu)建流程圖：

1. 知識體系構(gòu)建（建模）

1.1 定義

知識體系構(gòu)建，也稱為知識建模，是指采取什么樣的方式來表達知識，其核心是構(gòu)建一個本體對目標知識進行描述。

在這個本體中需要定義出知識的類別體系、每個類別下所屬的概念和實體、某類概念和實體所具有的屬性以及概念之間、實體之間的語義關(guān)系，同時也包括定義在這個本體上的一些推理規(guī)則。

知識圖譜是隨著語義網(wǎng)的發(fā)展而出現(xiàn)的概念。語義網(wǎng)的核心目標是讓計算機能夠理解文檔中的數(shù)據(jù)，以及數(shù)據(jù)和數(shù)據(jù)之間的語義關(guān)聯(lián)關(guān)系，從而使得計算機可以自動化、智能化地處理這些信息。

1.2 RDF三元組

語義網(wǎng)技術(shù)涉及面較廣，這里只介紹與知識圖譜數(shù)據(jù)建模緊密相關(guān)的核心概念——資源描述框架（RDF）。RDF基本數(shù)據(jù)模型包括了三個對象類型：資源（resource）、謂詞（predicate）以及陳述（statements）。

資源：能夠使用RDF表示的對象稱之為資源，包括互聯(lián)網(wǎng)上的實體、事件和概念等；
謂詞：謂詞主要描述資源本身的特征和資源之間的關(guān)系；
陳述：一條陳述包含三個部分，通常稱之為RDF三元組（主題：被描述的資源，謂詞：可以表示主體的屬性，也可以表示主語和賓語之間的關(guān)系，賓語：屬性值）。

知識圖譜將三元組（triple）作為知識存儲和表示的基本單元。三元組的表現(xiàn)形式有兩種：“實體—關(guān)系—實體”、“實體—屬性—屬性值”。

其中每個實體代表現(xiàn)實世界中一個獨一無二的對象，并對應(yīng)全局唯一的ID。

1.3 實例

下圖中包含了多組三元組信息：

桃李面包作為一個實體，其屬性是公司名稱，屬性值是桃李面包股份有限公司；
吳志剛作為實體，與桃李面包之間是持股關(guān)系，屬性值為具體持股比例；
吳志剛作為實體，與盛雅莉之間是親屬關(guān)系，屬性值為夫妻。

2. 知識獲取

2.1 目標

知識獲取的目標是從海量的文本數(shù)據(jù)中通過信息抽取的方式獲取知識，其方法根據(jù)所處理數(shù)據(jù)源的不同而不同。

2.2 數(shù)據(jù)類型

知識圖譜中數(shù)據(jù)的主要來源包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)（純文本）。

其中，非結(jié)構(gòu)化文本的信息抽取是構(gòu)建知識圖譜的核心技術(shù)。

2.3 知識獲取的基本任務(wù)

實體識別：指從文本中識別實體信息；
實體消歧：指消除指定實體的歧義；
關(guān)系抽?。褐斧@取兩個實體之間的語義關(guān)系；
事件抽?。褐笍拿枋鍪录畔⒌奈谋局谐槿〕鲇脩舾信d趣的事件信息并以結(jié)構(gòu)化的形式呈現(xiàn)出來。

3. 知識融合

知識融合是對不同來源、不同語言或不同結(jié)構(gòu)的知識進行融合，從而對已有知識圖譜進行補充、更新和去重。

從融合的對象來看，包括知識體系的融合和實例的融合；
從融合的圖譜類型來看，可以分為豎直方向的融合和水平方向的融合。

4. 知識存儲

知識存儲就是研究采取何種方式將已有知識圖譜進行存儲。

4.1 存儲方式

目前知識圖譜大多是基于圖的數(shù)據(jù)結(jié)構(gòu)，存儲方式通常采用RDF格式存儲和圖數(shù)據(jù)庫（Graph Database），前者例如Google開放的Freebase知識圖譜，后者例如開源圖數(shù)據(jù)庫Neo4j。

4.2 質(zhì)量評估

有效的質(zhì)量評估可以對知識的可信度進行量化，通過舍棄置信度較低的知識來保障知識圖譜的質(zhì)量。

4.3 知識更新

（1）更新類型

從邏輯上看，知識圖譜的更新包括概念層的更新和數(shù)據(jù)層的更新。

概念層的更新是指新增數(shù)據(jù)后獲得了新的概念，需要自動將新的概念添加到知識圖譜的概念層中。
數(shù)據(jù)層的更新主要是新增或更新實體、關(guān)系、屬性值，對數(shù)據(jù)層進行更新需要考慮數(shù)據(jù)源的可靠性、數(shù)據(jù)的一致性等，并選擇在各數(shù)據(jù)源中出現(xiàn)頻率高的事實和屬性加入知識庫。

（2）更新方式

全面更新：指以更新后的全部數(shù)據(jù)為輸入，從零開始構(gòu)建知識圖譜。
增量更新：以當(dāng)前新增數(shù)據(jù)為輸入，向現(xiàn)有知識圖譜中添加新增知識。

相對而言，前者比較簡單，但資源消耗大，而后者資源消耗小。

5. 知識推理

為了解決數(shù)據(jù)的不完備性和稀疏性，需要采取推理的手段發(fā)現(xiàn)已有知識中隱含的知識。

目前研究重點在于挖掘兩個實體之間隱含的語義關(guān)系。

兩種推理方法：

基于傳統(tǒng)邏輯規(guī)則的方法進行推理，其研究熱點在于如何自動學(xué)習(xí)推理規(guī)則，以及如何解決推理過程中的規(guī)則沖突問題；
基于表示學(xué)習(xí)的推理，即采用學(xué)習(xí)的方式，將傳統(tǒng)推理過程轉(zhuǎn)化為基于分布式表示的語義向量相似度計算任務(wù)。