91精品久久久久影视网,GOGOGO中国剧情介绍与评价

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

三分鐘了解協(xié)同過濾算法

會編程的狗

2018-02-09

1 評論 22242 瀏覽 66 收藏

計算用戶/物品相似度，以相似度作為權(quán)重，對不同物品進行評分預(yù)測，從而實現(xiàn)物品。

什么是協(xié)同過濾

先舉個生活中的場景，你想聽歌卻不知道聽什么的時候，會向你身邊與你品位類似的朋友求助，從而獲得他的推薦。協(xié)同過濾（Collaborative Filtering，簡稱CF）就像與你品味相近的朋友，通過對大量結(jié)構(gòu)化數(shù)據(jù)進行計算，找出與你相似的其他用戶（user）或與你喜歡的物品（item）相似的物品，從而實現(xiàn)物品推薦。

協(xié)同過濾分為兩類：基于用戶的協(xié)同過濾（User-Based CF）和基于物品的協(xié)同過濾（Item-Based CF）。結(jié)合前文的介紹便不難理解分別的應(yīng)用場景。

計算相似度之前需要先準備一些如下表所示的數(shù)據(jù)集：

它是一種表達不同人對不同物品偏好的方式，例如音樂應(yīng)用可以用0和1表示喜歡不喜歡和喜歡。

User-Based CF

如果你和小明對于音樂的品位相似，假如小明喜歡聽Adele，那么你也有可能喜歡聽。好了，問題來了：

如何衡量兩個用戶是否相似？
如何根據(jù)相似用戶推薦物品？

相似度計算

相似度通過如下公式計算得到：

y = f(data, user1, user2)

其中，data就是前文提到的數(shù)據(jù)集，user1和user2表示要比較的兩個用戶或物品。書中主要介紹了兩種相似度計算函數(shù)：歐幾里得距離評價、皮爾遜相關(guān)度評價。

（1）歐幾里得距離

它以經(jīng)過人們一致評價的物品為坐標軸，然后將參與評價的人繪制到圖上，并考察他們彼此間的距離遠近。輸出滿足y∈[0,1]，1表示user1和user2具有相同的偏好，0表示user1和user2偏好不同。

（2）皮爾遜相關(guān)度

它是比歐幾里得距離更復(fù)雜的一種表示相似度的方法。用于判斷兩組數(shù)據(jù)與某一直線擬合程度，在數(shù)據(jù)不是很規(guī)范的時候（比如，影評者對影片的評價總是相對于平均水平偏離很大時），會傾向于給出更好的結(jié)果。皮爾遜可以簡單理解為cos(x)函數(shù)，所以其輸出滿足y∈[-1,1]，1表示user1和user2具有相同的偏好，0表示user1和user2偏好不同，-1表示user1和user2偏好負相關(guān)。如果難以理解可以參考：如何理解皮爾遜相關(guān)系數(shù)（Pearson Correlation Coefficient）？

由于本人高數(shù)上下都是勉強及格，對于這兩個函數(shù)理解的也不深，所以沒辦法深入淺出的解釋，不過只要知道每種計算方法的適應(yīng)范圍和局限性就好了。