懂你的推薦算法,推薦邏輯是怎樣的?
作為一個(gè)喜歡思考人生的美男子,我時(shí)常感慨,現(xiàn)在這個(gè)年代,人們上網(wǎng)獲取信息的成本真的好低。智能手機(jī),人手一臺(tái),打開3G就能上網(wǎng),百度一搜,什么都有。當(dāng)然百度上搜出來的大多數(shù)可能并不是你想要的,但這并不妨礙上面的論點(diǎn)成立。也正是因?yàn)槌杀咎停藗兎炊辉敢庵鲃?dòng)取獲取信息,于是各種各樣的推薦系統(tǒng)有了大展身手的機(jī)會(huì)。
推薦在生活中是一個(gè)再平常不過的事情,你失業(yè)了,有人會(huì)給你推薦工作,你失戀了,有人會(huì)給你推薦姑娘。但是在我們這個(gè)機(jī)器遠(yuǎn)沒有人類聰明的時(shí)代,這些事情要是交給機(jī)器去做,你就得設(shè)計(jì)出一套機(jī)器能理解的算法出來,這就是所謂的推薦算法。大家看到算法兩個(gè)字不要慌,以為我又要搬一個(gè)大東西出來嚇唬人。你可以把算法看做現(xiàn)實(shí)生活中的辦事流程,它規(guī)定了你第一步干什么,第二步干什么,只要你按它說的做,就可以把事情辦好。舉個(gè)例子,你現(xiàn)在要做一個(gè)電影推薦APP,我們來看下整個(gè)過程是怎樣的。
在推薦算法中,我們第一步要有一大堆要推薦的東西。也就是說,你的電影首先要足夠多,才能滿足不同用戶的需求。算法再精準(zhǔn),最后發(fā)現(xiàn)推導(dǎo)出來的結(jié)果,在你的數(shù)據(jù)庫中并沒有,就悲劇了。第二步是要有用戶的行為數(shù)據(jù)。這個(gè)也是越多越詳細(xì)越好。這時(shí)候你要把看了哪部電影,看完沒有,評價(jià)怎么樣悄悄的記下來,上傳到后臺(tái)服務(wù)器。經(jīng)過長期的積累,這些數(shù)據(jù)將為你以后的精準(zhǔn)推薦奠定基礎(chǔ)。
有了上面的數(shù)據(jù)基礎(chǔ),我們就可以進(jìn)入正題了。推薦算法有不少,我們今天介紹一種最基本的叫做協(xié)同過濾算法。它的核心思想是物以類聚,人以群分。具體可以分為基于用戶的協(xié)同過濾算法和基于物品的協(xié)同過濾算法。我一直覺得專業(yè)領(lǐng)域起這種高大上的名字,是用來過濾智商的,因?yàn)楹芏嗳丝吹竭@里就不打算往下看了,哈哈。
先看第一種基于用戶的協(xié)同過濾??梢院唵卫斫鉃槲译m然不認(rèn)識(shí)你,但是我通過查看你的朋友圈都是些什么人,根據(jù)人以群分的道理,他們喜歡的很可能就是你喜歡的。
假設(shè)從歷史數(shù)據(jù)上來看,用戶A喜歡《捉妖記》、《大圣歸來》,用戶B喜歡《梔子花開》、《小時(shí)代》,用戶C喜歡《捉妖記》。那我們就可以簡單認(rèn)為AC二人口味相似,可以歸到一個(gè)朋友圈里,C極有可能也喜歡A所喜歡的《大圣歸來》。
這是最簡單的情況,實(shí)際上僅僅用喜不喜歡來評價(jià)感興趣程度是遠(yuǎn)遠(yuǎn)不夠的,用戶不可能看完還填個(gè)調(diào)查表選擇yes or no,但是會(huì)通過一些其他行為比如影評、是否收藏來反應(yīng)他們的喜歡程度。機(jī)器只能理解量化的東西,所以在算法中,這些行為會(huì)轉(zhuǎn)化成相應(yīng)的分?jǐn)?shù)。比如完整看完的,給3分;看完還給了正面評價(jià)的,給5分;看到一半就怒刪的,給負(fù)10分。這樣每個(gè)用戶都會(huì)有一個(gè)電影評分表,在計(jì)算兩個(gè)用戶相似度的時(shí)候,把這些數(shù)據(jù)代入下面這種專門計(jì)算相似度的公式,就能得到二人口味的相似程度。
現(xiàn)在我們要給用戶D推薦電影,分別計(jì)算AD、BD、CD的相似度,找到跟D最相似的用戶,然后把他喜歡的,都推薦給D,就行了。(下面的公式叫做余弦相似度公式,通過計(jì)算n維空間中兩個(gè)向量的夾角余弦,來表示相似度,大家感受一下就好,感興趣的可以去問google。)
第二種是基于物品的協(xié)同過濾。基本思想是假設(shè)甲乙是相似的物品,那么喜歡甲的人,很可能也喜歡乙。還是上面的例子,現(xiàn)在假設(shè)用戶E喜歡《梔子花開》和《小時(shí)代》,那我們可以推導(dǎo)出,喜歡《梔子花開》的用戶(B和E)都喜歡《小時(shí)代》,那基本可以確定兩部電影是相似的,下回來個(gè)用戶F,他喜歡《梔子花開》,那我順便就把《小時(shí)代》推薦給他,他可能比較容易接受。
大家可能要問,我的APP第一天上線,沒有這些所謂的用戶行為數(shù)據(jù)怎么推薦啊。這就是推薦算法面臨的冷啟動(dòng)問題。這時(shí)候可以用基于內(nèi)容的算法了。你可以事先把所有電影歸個(gè)類,戰(zhàn)爭片歸到一起,喜劇片歸到一起,動(dòng)畫片歸到一起。用戶H看了一部喜劇片,你就把所有喜劇片推薦給他。顯而易見,這種算法簡單粗暴,當(dāng)然命中率也最低。
真正的推薦系統(tǒng)會(huì)綜合運(yùn)用各種算法,加之機(jī)器學(xué)習(xí)和人工調(diào)優(yōu)的不斷改進(jìn),所以是非常復(fù)雜的。
#專欄作家#
給產(chǎn)品經(jīng)理講技術(shù),微信公眾號(pm_teacher),人人都是產(chǎn)品經(jīng)理專欄作家。資深程序猿,專注客戶端開發(fā)若干年,對前端、后臺(tái)技術(shù)略懂,熱衷于對新的科技領(lǐng)域的探索。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,不得轉(zhuǎn)載。
一些帖子熱門的刷新邏輯是怎么樣的呢 推薦邏輯又是咋樣的呢
666
6666很有趣