捉住她的两只小兔子,高清成人爽a毛片在线播放,99久久亚洲综合精品成人网

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

常用推薦算法介紹

潘一鳴

2017-06-07

23 評論 66666 瀏覽 620 收藏

🔗 技术知识、行业知识、业务知识等，都是B端产品经理需要了解和掌握的领域相关的知识，有助于进行产品方案设计和评估

在本文中，作者主要是介紹了常見推薦算法的基本原理。

0. 從余弦公式講起

先思考一個問題，我們怎么量化兩個事物的相似度呢？當然，這也是推薦系統(tǒng)需要多次面臨的問題。

我們知道向量的概念，可以形象化地表示為帶箭頭的線段。二維空間向量表示方法為,多維空間向量表示為，向量是描述事物一種很好模型。

比如，假設用戶有5個維度：

對服裝的喜歡程度（1~5分）
對家居的喜歡程度（1~5分）
對3C的喜歡程度（1~5分）
對圖書的喜歡程度（1~5分）
對化妝品的喜歡程度（1~5分）

一個用戶A：對服裝的喜歡程度3，對家居的喜歡程度1，對3C的喜歡程度4，對圖書的喜歡程度5，對化妝品的喜歡程度0，用戶A可以用向量表示為
一個用戶B：對服裝的喜歡程度3，對家居的喜歡程度4，對3C的喜歡程度5，對圖書的喜歡程度0，對化妝品的喜歡程度2，用戶B可以用向量表示為

這兩個用戶的相似程度是多大呢？既然我們把這兩個用戶表示為向量，那么我們可以考慮向量怎么判斷相似性。沒錯，看這兩個向量的夾角。夾角約小，則相似度越大。

對于向量和而言，他們的在多維空間的夾角可以用向量余弦公式計算：

余弦相似度的值本身是一個0~1的值，0代表完全正交，1代表完全一致。就剛才用戶A和用戶B的例子而言，我們可以知道他們的相似度為：

余弦公式本身應用范圍很廣，量化相似度在搜索推薦，商業(yè)策略中都是常見問題，余弦公式是很好的解決方案。就推薦本身而言，計算內容的相似度，計算用戶的相似度，計算用戶類型的相似度，計算內容類型的相似度，這些都是可以應用的場景。

1. 推薦的本質是什么

推薦和搜索本質有相似的地方。搜索滿足用戶從海量數(shù)據中迅速找到自己感興趣內容的需求，屬于用戶主動獲取。推薦則是系統(tǒng)從海量數(shù)據中根據獲取到的用戶數(shù)據，猜測用戶感興趣的內容并推薦給用戶，屬于系統(tǒng)推薦給用戶。本質上都是為了在這個信息過載的時代，幫助用戶找到自己感興趣的東西。

推薦系統(tǒng)有很多種形式。運營或者編輯篩選出自己認為最好的內容放在首頁，廣義上講這也是一種推薦。不過這個不在我們本期文章的討論范圍，本期主要是討論系統(tǒng)級別的推薦。這里主要介紹四類常見的推薦方法：

基于內容的推薦
基于內容的協(xié)同過濾
基于用戶的協(xié)同過濾
基于標簽的推薦

2. 基于內容的推薦

基于內容的推薦是基礎的推薦策略。如果你瀏覽或購買過某種類型的內容，則給你推薦這種類型下的其他內容。

以電影推薦為例。比如你之前看過《盜夢空間》，則系統(tǒng)會關聯(lián)數(shù)據庫中盜夢空間的信息。系統(tǒng)會推薦克里斯托弗·諾蘭導演的其他作品，比如《致命魔術》；系統(tǒng)會推薦主演里昂納多的其他作品，比如《第十一小時》。

如果這個電影系統(tǒng)的數(shù)據被很好地分類，那么推薦系統(tǒng)也會給用戶推薦這個分類下的其他作品。盜夢空間如果被歸為科幻作品，那么可能會推薦其他科幻作品，比如《星際迷航》。

基于內容的推薦好處在于易于理解，但是壞處是推薦方式比較依賴于完整的內容知識庫的建立。如果內容格式化比較差，那么基于內容的推薦就無法實行。同時如果用戶留下的數(shù)據比較少，則推薦效果很差，因為無法擴展。

3. 基于內容的協(xié)同過濾

協(xié)同過濾（Collaborative Filtering）與傳統(tǒng)的基于內容過濾直接分析內容進行推薦不同，協(xié)同過濾會分析系統(tǒng)已有數(shù)據，并結合用戶表現(xiàn)的數(shù)據，對該指定用戶對此信息的喜好程度預測。

基于內容的協(xié)同過濾（item-based CF），通過用戶對不同內容的評分來評測內容之間的相似性，基于內容之間的相似性做出推薦；最典型的例子是著名的“啤酒加尿布”，就是通過分析知道啤酒和尿布經常被美國爸爸們一起購買，于是在尿布邊上推薦啤酒，增加了啤酒銷量。

需要計算用戶u對物品j的興趣，公式如下：

這里N(u)表示用戶有關聯(lián)的商品的集合，wji表示物品j和i的相似度，rui表示用戶u對物品i的打分，示例如下：

這里還有兩個問題沒有仔細描述，如何打分，如何計算相似度。

打分的話需要根據業(yè)務計算，如果有打分系統(tǒng)最好，沒有打分系統(tǒng)，則需要根據用戶對這個物品的行為得到一個分數(shù)。

計算相似度除了之前我們提到的余弦公式，還可以根據其他的業(yè)務數(shù)據。比如對于網易云音樂而言，兩首歌越多的被加入兩個歌單，可以認為兩首歌越相似。對于亞馬遜而言，兩個商品越多的被同時購買，則認為兩個商品相似。這里其實是需要根據產品的具體情況進行調整。

4. 基于用戶的協(xié)同過濾

基于用戶的協(xié)同過濾（user-based CF），通過用戶對不同內容的行為，來評測用戶之間的相似性，基于用戶之間的相似性做出推薦。這部分推薦本質上是給相似的用戶推薦其他用戶喜歡的內容，一句話概括就是：和你類似的人還喜歡下列內容。

需要計算用戶u對物品i的興趣，公式如下（可以和基于物品的協(xié)同過濾仔細對比）：

這里N(i)表示對物品i有過行為的用戶集合，wuv使用用戶u和用戶v的相似度，rvi表示用戶v對物品i的打分，示例如下：

同樣的，這里計算相似度如果用到余弦公式，其實最主要的是選好維度。對于音樂而言，可能是每首歌都作為一個維度，對于電商而言，也可以是每個商品都是一個維度。當然，用一些可理解的用戶標簽作為維度也是可以的。

5. 基于標簽的推薦

標簽系統(tǒng)相對于之前的用戶維度和產品維度的推薦，從結構上講，其實更易于理解一些，也更容易直接干預結果一些。關于tag和分類，基本上是互聯(lián)網有信息架構以來就有的經典設計結構。內容有標簽，用戶也會因為用戶行為被打上標簽。通過標簽去關聯(lián)內容。

需要計算用戶u對物品i的興趣，公式如下（可以和基于物品的協(xié)同過濾仔細對比）：

這里N(u.,i)表示用戶u和物品i共有的標簽，wuk使用用戶u和標簽k的關聯(lián)度，rki表示標簽k和物品i的關聯(lián)性分數(shù)，示例如下：

標簽查找的方法這里有很大可以發(fā)揮的空間，比如，通過知識庫進行處理，或者語義分析處理。而對于一些設計之初就有標簽概念的網站，就比較容易，比如豆瓣和知乎。對于知乎而言，公共編輯的標簽是天然的標簽內容，對于知乎的用戶而言，瀏覽回答關注等行為則是天然的用戶標簽素材。

6. 總結

對于推薦而言，這幾種基本的方法彼此之前都有些應用場景的差別：比如基于知識的推薦，這是比較老舊的推薦方法，但是對于系統(tǒng)和結構比較好的內容，則低成本且高效。比如基于內容的協(xié)同過濾，就適用于內容比較有限，但是用戶數(shù)特別多的情況，比如電商公司。比如基于用戶的協(xié)同過濾，則比較容易根據用戶的興趣點，發(fā)覺熱點內容，比如新聞門戶。對于基于標簽的推薦，有標簽系統(tǒng)的很占便宜，它在靈活性和可控制性上都好一些，但是做好很難。

本期主要是介紹了常見推薦算法的基本原理，那么在推薦系統(tǒng)策略設計的時候，有哪些需要特別注意的地方呢？我們怎么衡量一個推薦系統(tǒng)的優(yōu)劣呢？推薦系統(tǒng)有哪些典型的應用場景呢？歡迎關注專欄，繼續(xù)閱讀下期。

#專欄作家#

潘一鳴，公眾號：產品邏輯之美，人人都是產品經理專欄作家。畢業(yè)于清華大學，暢銷書《產品邏輯之美》作者；先后在多家互聯(lián)網公司從事產品經理工作，有很多復雜系統(tǒng)的構建實踐經驗。

本文原創(chuàng)發(fā)布于人人都是產品經理。未經許可，禁止轉載。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

個性化推薦算法是什么，怎么做？文章被收錄于該專欄

共 12 篇文章45255 人已學習

算法的知識匯總文章被收錄于該專欄

共 11 篇文章16162 人已學習

潘一鳴

新書《產品邏輯之美》在售中

30篇作品 783218總閱讀量

起步型B端產品如何開啟運營工作，成功切入市場？

01-043741 瀏覽

CEO親自上陣直播，高途好未來苦等下一個董宇輝

03-204831 瀏覽

B端产品设计思路：如何平衡大量客户需求

刚刚

六步法教你做平臺級互動的從0到1

02-266509 瀏覽

跨境電商旺季吹響，新出海四小龍的機遇何在？

12-05989 瀏覽

小紅書、B站、快手，互聯(lián)網平臺掀起新一波“詩歌復興”

04-234402 瀏覽

評論

汪仔4653

買了你的書了，好好看看先

最近來自浙江回復
Lorena-CL

“比如對于網易云音樂而言，兩首歌越多的被加入兩個歌單，可以認為兩首歌越相似?！蹦愫?，這個是不是寫錯了呢？兩首歌越多被加入同一個歌單，可認為兩首歌越相似？（不知道是不是我理解有偏差。）

最近回復
大衛(wèi)

最好舉一些例子，這樣看起來很生硬，若不是提前看了別人的文章，根本不懂

最近來自廣東回復
產品大大

作者一個文科產品經理，懂了這些數(shù)學知識，不簡單了

最近來自上海回復
??Vicken

對于一個文科生。表示一臉懵逼。

最近回復
濮院曉春輔料

對于剛入搜索和數(shù)據分析的新人，入門學習，有沒有推薦的書籍呢（淘寶電商）

最近來自浙江回復
半夏的微涼

寫的真好，學到很多東西

最近來自上海回復
simohayha

“余弦相似度的值本身是一個0~1的值”，這句話不夠嚴謹。

最近來自上海回復
仰望星空

寫的很好，果然是沒有對比就沒傷害?。?！

最近來自浙江回復
答案

對于剛入搜索行業(yè)的產品運營新人，想快速了解推薦及搜索的相關內容，有沒有推薦的書籍呢（新聞類產品）

最近回復
1. liodas 回復答案
  
  《推薦算法實踐》，這個作者寫的這四種方法，都可以歸納為基于物與物的推薦和基于人與人的推薦。
  
  最近來自北京回復
一夜可以走多遠

請教作者前輩一個問題：對于剛上線的項目，應用第3類和第4類算法時如果沒有最初始的種子數(shù)據，也就是沒有“1.6”或者“0.8”這樣的初值，如何啟動這個推薦呢？

最近來自北京回復
1. S081167 回復一夜可以走多遠
  
  冷啟動問題。我們項目中采取的方法是采用基于內容推薦的算法為用戶推薦相似的item作為過渡，待積累了用戶行為數(shù)據之后可以切換至CF或者多種推薦算法結合的方式。
  
  最近來自陜西回復
fantasy081

基于內容的推薦雖然難做，但卻是用戶體驗最好的一種，因為它能真正做到關聯(lián)推薦，而不是相似推薦。所有基于相似的推薦最大的問題就是重復推薦，我剛買量自行車還給我推薦自行車，這時候推薦任何周邊產品都可以就是不該推薦重復品類的東西，可是目前大多網站都在犯這類錯誤。

最近來自北京回復
1. 潘一鳴作者回復fantasy081
  
  推薦算法不是相似推薦，而是相關推薦。內容推薦上限是遠低于推薦算法的推薦的。
  
  最近來自北京回復
Airnsa

基于內容推薦特別難做，需要產品有一個完整的內容體系，并且這些內容還要在某一個場景有所聯(lián)系最好。這也是我最近在給界面添加一些推薦功能時所煩躁的，只能一個流程需要一個功能時臨時添加，等這些界面功能都添加好了我還要想辦法讓它們有聯(lián)系，做到這些不容易。。。哎

最近來自廣東回復
STYLE_body

謝謝分享，很棒

最近來自廣東回復
鯉魚號的舵手

從第三段開始，三個圖看不懂，能不能解釋下？

最近來自上海回復
1. 潘一鳴作者回復鯉魚號的舵手
  
  圖只是在解釋上面的公式。如果仔細看還沒看明白的話，可以看下書《推薦系統(tǒng)實踐》。
  
  最近來自北京回復
王浩

寫的很完整，收藏了慢慢看。

最近來自江蘇回復
黒丶夜

挺好，學渣看看公式表示看不懂

最近來自廣東回復
我們家Duor

不愧是THU出來的學院派

最近來自廣東回復
1. 潘一鳴作者回復我們家Duor
  
  客氣了 ??
  
  最近來自北京回復

转岗产品经理的求职难题，你遇到过吗？