深度丨從零搭建推薦體系: 推薦體系和評估體系(下)

2 評論 36987 瀏覽 211 收藏 31 分鐘

本文闡述整個推薦體系從0搭建的全流程,也是最近以來一直深入研究的成果展現(xiàn),因原文太長,故此切分成3部分發(fā)送,每天發(fā)送1篇,全文結(jié)構(gòu)為:上篇:第零章概述,第一章標簽體系搭建;中篇:第三章用戶體系,第四章項目體系,下篇:第五章推薦體系,第六章評估體系,第七章全文總結(jié),第八章參考資料。

內(nèi)容相對全而深入,希望有推薦體系搭建意愿的平臺或者產(chǎn)品經(jīng)理,能夠給予一定的幫助就好。另,求工作。

深度丨從零搭建推薦體系:概述及標簽體系搭建(上)

深度丨從零搭建推薦體系:用戶體系、項目體系和推薦體系(中)

5. 推薦體系

5.1 推薦方法

很明顯,推薦方法和推薦算法是整個推薦系統(tǒng)中最核心、最關(guān)鍵的部分,很大程度上決定了推薦系統(tǒng)性能的優(yōu)劣。目前,主要的推薦方法包括:基于內(nèi)容推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識推薦和組合推薦。詳細的方法介紹也放置在附錄4當中以供參考,下面梳理出各方法的優(yōu)劣:

1在除去場景外,也要結(jié)合性能因素來進行考量,不同數(shù)據(jù)量級的情況下不同方法配合不同算法產(chǎn)生的性能壓力也是不同的,需要結(jié)合公司自身承受情況進行選擇??梢钥闯觯陨戏椒ň胁煌潭鹊膬?yōu)勢和劣勢,所以目前主流推薦方法也幾乎均采用混合推薦的方法,利用兩種或多種方法之間的優(yōu)勢,規(guī)避劣勢從而達成盡量完美的方法,這其中也一定是基于不同的使用場景和產(chǎn)品具體情況具體分析了。

5.2 推薦算法

這是整個推薦系統(tǒng)的核心區(qū)域,之前做的許多的工作其實都是在給推薦算法提供所謂的相關(guān)系數(shù)條件,當系數(shù)越多的時候,計算出的結(jié)果一定是更準確的。

從數(shù)學角度來說是計算用戶與內(nèi)容之間的相似度和距離,相似度越高,距離越近的,自然越容易達成轉(zhuǎn)化,所以常見算法也就是向量里面的夾角余弦算法、皮爾遜系數(shù),從距離來說會有歐幾里得空間距離算法、曼哈頓距離算法等等,包括還有許多新進研究的算法例如基于圖摘要和內(nèi)容相似混合聚類的推薦算法GCCR。

簡單介紹下GCCR,該算法可以極端稀疏的數(shù)據(jù)集上具有較高的準確度,同時在冷啟動的場景下能夠提供多樣性的推薦結(jié)果,從而避免推薦結(jié)果收斂過快的問題。

首先,選取用戶節(jié)點中關(guān)注數(shù)量較高的節(jié)點,從而抽取出稀疏數(shù)據(jù)中的一個密集子集,利用圖摘要的方法,對此密集子集形成關(guān)注興趣相似的核心聚類。

然后,提取種子聚類的內(nèi)容特征和整個數(shù)據(jù)集中其它用戶的內(nèi)容特征,基于內(nèi)容相似度對整個用戶群進行聚類,最后將聚類結(jié)果用于主題推薦。通過對密集數(shù)據(jù)子集和全數(shù)據(jù)集的兩階段聚類過程,提高對極端稀疏數(shù)據(jù)集的聚類效果。同時,由于圖摘要聚類中的類模糊性,可以在對用戶興趣聚類的過程中保留一定的多樣性,從而避免冷啟動時收斂過快。

所以當前算法非常的多,結(jié)合不同場景和產(chǎn)品選擇最優(yōu)算法,才是最好的,在附錄5當中也列舉了常規(guī)的一些距離算法以供參考。

5.3 運用思路

當運用于實際情況時,一定要結(jié)合產(chǎn)品自身情況考量,例如產(chǎn)品冷啟動期間數(shù)據(jù)過少,用哪種方法,在數(shù)據(jù)量級充分上來的時候,減輕計算壓力應該用哪種,長期需要修正的時候需要用哪種,都是需要我們綜合考量的,下面也將自己梳理的整體推薦思路進行分享。

千人一面

在產(chǎn)品上線初期,無論使用人數(shù),還是內(nèi)容,都相對較少,還未有足夠數(shù)據(jù)支撐用戶相關(guān)行為以及趨勢,所以在此階段,以收集用戶行為、屬性為最高目的,先達成最粗略的推薦行為,也就是判斷哪些用戶是疑似某一細化方向的目標用戶,僅此即可。應該分為兩個方向來考慮這個問題,新用戶和老用戶,對于新用戶只能從環(huán)境熟悉和可能的物理屬性進行判斷,老用戶可以全方位多維度判斷,詳見第二章,這里不多做敘述。

所以在當前階段,主要目標就是收集用戶行為,一切行為均不能遺漏,這也就是前文所說的,先圍繞每個人建立一套粗略喜好標簽模型,此階段希望的是實時調(diào)整,根據(jù)用戶使用頻次和動作來決定,一定要快,因為剛剛上線,用戶隨時有可能離開。在用戶隨手點擊內(nèi)容以后回到首頁的時候發(fā)現(xiàn)已經(jīng)有較為感興趣的內(nèi)容了,那種好感度是不一樣的。

千人十面

在這個階段,已然有之前的用戶行為的基礎(chǔ)數(shù)據(jù)作為支持了,所以我們首先要做的就是將用戶分組,將有相似喜好的用戶找到,方法就是用最經(jīng)典的向量算法里的夾角余弦,每個用戶直接都要分別計算,不過好再現(xiàn)階段用戶量級不多,可以大量計算。計算依據(jù)也就是根據(jù)之前用戶的相關(guān)操作行為,給用戶打上的相關(guān)標簽,按照標簽相似度來給用戶進行聚類。

所以在聚類完成后,一定會獲得離別內(nèi)某種同樣的特征值,所以這也就完成了第二階段的工作,每個類別內(nèi)的用戶進行相同的內(nèi)容展示。

而且我們已經(jīng)知道了喜愛不同項目之間的用戶特征屬性,這時候再進來的用戶,我們也就可以相應的放在疑似庫里了,等到收集到相應的新用戶行為,也就能確定這個新用戶的相關(guān)喜好方向了,成本會減小很多。所以在這個階段,要盡量收集全,時間可以控制在2周左右,為下一步更加精準的推薦做準備。

千人百面

從這里開始,伴隨著的一定是大批量計算。所以這里我們就是通過每個人的行為,猜測每個人的未知喜好,進行最大化的推薦匹配,我們需要設(shè)定動作權(quán)重系數(shù),例如:有效打開=5, 分享=4, 收藏=3, 互動=2 , 其它跳轉(zhuǎn)=1, 無效打開=-2 , 點×=-5。

設(shè)定完畢后,我們可以看到當用戶A、B、C在第二步時,在同一類組,看到的內(nèi)容均相同,但是行為可能完全不同。我們就能得到以下的近似值,設(shè)任意三篇內(nèi)容為x、y、z軸,那么對于用戶A來說,那就是(3,-1,-1),B君是(5,1,-5),C君是(-5,3,3)。用夾角余弦=向量點積/ (向量長度的叉積),所以 A君B君夾角的余弦是0.81,A君C君夾角的余弦是-0.97。

根據(jù)余弦定則,等于1是0°,就是完全重合,-1是180°完全相反,所以越靠近1兩者越相似,所以AB相似,所以看AB用戶之間的差異,比如A看了x的新聞,B只看了y的新聞,就可以進行交叉推薦了。

所以當內(nèi)容(x、y、z)越多時,計算越準確,直接的結(jié)果那就是由于數(shù)據(jù)量的不斷增大以及用戶量級的不斷增大,每一次計算也是不現(xiàn)實的,用戶也多,次數(shù)就多,內(nèi)容也多,點就多,所以考慮到這些,我們在第四步達成最終的目的。

千人千面

我們通過之前的數(shù)據(jù)積累,大量收集用戶之前的相關(guān)行為,在這里要通過協(xié)同過濾矩陣及拆解來解決問題,矩陣拆解的核心其實是為了得到潛在因子,所以我們需要怎么做。

將內(nèi)容與用戶的行為結(jié)合,變?yōu)檫@一張表格,能相應減少許多計算量同時達到不錯的效果,如下表:

1

設(shè)定有效打開=5, 分享=4, 收藏=3, 互動=2 , 其它跳轉(zhuǎn)=1, 無效打開=-2 , 點×=-5。

將表格利用協(xié)同過濾中的矩陣拆解進行計算,我們就可以得到如下兩張表:

2

這兩個矩陣相乘就可以得到估計的得分矩陣:

3

將用戶已經(jīng)看過的內(nèi)容剔除后,選擇分數(shù)最高內(nèi)容的推薦給用戶即可(紅體字)。所以在這里,我們其實已經(jīng)就完全可以精準化的推薦了,結(jié)果與計算量達到了相應的平衡。

已經(jīng)到這一步了,這時候每個人的展示信息已然不盡相同,所以要結(jié)合人的之前打開行為,一定要結(jié)合時間、場景、內(nèi)容載體考慮之后的推薦,并且適當加入長尾內(nèi)容,用戶感興趣的大方向,但是細化方向沒有臨幸過的。

5.4 抽樣

抽樣技術(shù)在數(shù)據(jù)挖掘中主要用在兩個地方:一是在數(shù)據(jù)預處理和后處理階段,為了避免計算規(guī)模過大;二是在數(shù)據(jù)挖掘階段,通常會對訓練出來的模型進行交叉驗證,需要抽樣將所有樣本劃分為訓練集和測試集。

通常所說的抽樣都是隨機抽樣,主要用于所有樣本點都可以認為沒有區(qū)分時適用。還有一種分層抽樣,在樣本需要顯著的分為不同的子集時,針對每個子集分別進行抽樣。

5.5 維度規(guī)約

當樣本的維度增加的時候,待學習的模型的復雜性是隨著維度呈指數(shù)增長的,這種現(xiàn)象通常稱為“維災難”。這也就意味著,如果我們想在高維空間中學到和在低維空間中精度一樣高的模型,所需要的樣本數(shù)是呈指數(shù)增長的。

維度規(guī)約通常是用來處理維災難問題的。通常維度規(guī)約有兩種思路,一是從高維數(shù)據(jù)中選出最能表達數(shù)據(jù)的一些維度,并用這些維度來代表數(shù)據(jù),稱為特征選擇;另一種是將高維數(shù)據(jù)通過某種技巧變換映射到低維空間,稱為特征構(gòu)造。

主成分分析是最主要的一種特征選擇方式,它通過特征分解能夠得到每一個維度對于整個數(shù)據(jù)的最小均方差的貢獻程度,從而定量判斷每一維對于數(shù)據(jù)所包含信息的貢獻度。然后保留最主要的一些維度,拋棄一些不顯著的維度,對數(shù)據(jù)進行降維。

奇異值分解是主要的特征構(gòu)造方式,它通過矩陣分解的方式,將數(shù)據(jù)從高維空間映射到低維空間,對數(shù)據(jù)進行降維。

5.6 推薦展示

展示階段,我們應該以用戶為唯一維度來進行思考,從第三章也能看出分為外因和內(nèi)因,通過外因確定大方向,通過本次的操作行為確定內(nèi)因,兩者結(jié)合,時時修正,達到貼合用戶的目的。所以并不一定是用戶歷史行為某類型內(nèi)容打開較多、較高就要通通放在前面,在自身使用時候還有所謂的厭倦,與驚喜內(nèi)容相結(jié)合,并且是先弱后強還是先強后弱還是兩頭強中間弱,都是我們應該通過用戶時時改變的,強弱為通過歷史行為分析出的內(nèi)容對用戶吸引力的量詞。

5.7 信息繭房

當前所有的做法都是在不惜代價的盡量精準的完成推送,轉(zhuǎn)化最大化,可是這樣真的好嗎?不禁從另一個角度思考,如果用戶收到的都是符合喜好的內(nèi)容,就是最好的選擇了嗎?其實不然,這則很有可能陷入更危險境地——信息繭房。

美國學者凱斯·R·桑斯坦指出信息繭房以“個人日報”的形式呈現(xiàn):“伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)達、信息的劇增,人們可以隨意選擇想關(guān)注的話題,可依據(jù)喜好定制報紙、雜志,每個人都可為自己量身打造一份“個人日報”。當個人被禁錮在自我建構(gòu)的信息脈絡(luò)中,生活必然變得程序化、定式化,信息繭房就像是“回音室”,人們設(shè)定了話題、觀點,聽到的是自己的回音,每個人將都閉塞在自己的空間之內(nèi)?!?/p>

在面對個性化新聞推薦如何走出“信息繭房”,遏制其產(chǎn)生的“回音壁”傾向,桑斯坦提出應該構(gòu)建網(wǎng)絡(luò)的“人行道”模式。他認為無論使物理空間的街道、公園、還是報紙、廣播、電視等大眾媒體,都屬于公共領(lǐng)域,都應該像“人行道”一樣,可能會遇到種種非計劃和不想要的情景,不同的人群會體認到新鮮體驗;那些未經(jīng)實現(xiàn)篩選而遭遇的情狀,會引發(fā)人們的言行互動。

按照桑斯坦的理論,媒體應該添加“公共論壇”,通過提供用戶“非計劃”和“不想要”的信息,讓他們有機會接觸到不同領(lǐng)域的信息。當前新聞類客戶端常規(guī)做法一般都是添加“熱點”類的頻道欄目,并且在每個不同的頻道下的信息流中用帶“熱”字的紅色小標提示熱點信息以示區(qū)別。讓用戶接觸到不同階層的觀點,不同類別的信息。

但是在個性化新聞推薦方面,應該弱化用戶相關(guān)性推薦的原則,拓寬用戶的關(guān)注領(lǐng)域。個性化推薦除了基于用戶自身的基本信息,還有就是基于協(xié)同過濾的,是根據(jù)社交關(guān)系中的好友的興趣進行關(guān)聯(lián)推薦。這種推薦原則會使用戶聚集一批與自身在興趣、文化等方面相類似的朋友,關(guān)注對象的同質(zhì)化會讓用戶接收的信息也趨向于同質(zhì)化。

所以如何根據(jù)當前的興趣建立模型,分析依據(jù)當前興趣推測之后的興趣偏移點,甚至偏移速度,在適時的時候完成長尾化內(nèi)容推薦,可能才是未來推薦系統(tǒng)真正的價值。

5.8 小結(jié)總結(jié)

隨著算法出爐之后,是需要經(jīng)過長期的修正以及實時調(diào)整的,在這里面的樣例,依然將用戶分了組處理。我相信像頭條、網(wǎng)易新聞這種體量的APP來說,應該是以每個人就是一個維度,每個人為單位計算和文章內(nèi)容的相似度,才是終極目的。因為人有自己的用戶標簽體系,內(nèi)容同樣也有,先確定能影響用戶權(quán)重的最大標簽做粗略篩選,之后精細化每篇內(nèi)容和每個人進行向量計算逐一得到結(jié)果,逐一進行推薦。

在每天夠后一定要有相應的review,評估之前策略的效果,結(jié)合瀏覽時間、打開比例、互動反饋、卸載情況等綜合考慮策略的優(yōu)劣,快速調(diào)整,下面就要相應介紹評估體系的建立。

6. 評估體系

我們應該獲得的是根據(jù)用戶對推薦的顯性或隱性反饋改進、優(yōu)化原有用戶模型,以確保模型能夠匹配用戶的最新偏好,從而提高模型精度和推薦質(zhì)量。

6.1 評估維度

精確度的衡量最典型的算法是平均絕對誤差(MAE)、平均平方誤差(MSE)以及標準平均誤差(NMSE)。平均絕對誤差是所有單個觀測值與算術(shù)平均值的偏差的絕對值的平均,用來衡量一組數(shù)自身的離散程度。有兩個優(yōu)點,第一是計算方法簡單,易于理解,第二是每個系統(tǒng)的平均絕對誤差唯一,從而能夠區(qū)分兩個系統(tǒng)平均絕對誤差的差異,能更好地反映預測值誤差的實際情況。在有些系統(tǒng)中,用戶只在意推薦列表前端的預測誤差,而對系統(tǒng)的整體誤差并不是很在意,這時也不適合采用預測準確度進行評估,后兩種更適合用分類準確度度量系統(tǒng)的推薦質(zhì)量,來衡量觀測值同真值之間的偏差,說明樣本的離散程度,可作為衡量測量精度的一種數(shù)值指標。

集合準確率、召回率和精確率也可以用來衡量推薦的準確度,準確率表示用戶對一個被推薦內(nèi)容感興趣的可能性,召回率定義為推薦列表中用戶喜歡的內(nèi)容與系統(tǒng)中用戶喜歡的所有內(nèi)容的比率,精確率定義為推薦列表中用戶瀏覽的內(nèi)容與全部推薦內(nèi)容的比率。

其中還有像多樣性(平均海明距離)、分類準確度(ROC曲線)、排序準確度(平均排序分)、以及半衰期(半衰參數(shù))的因素,之前也描述過用戶的興趣還好是在隨著時間的不斷推移而增強或減弱的。除此之外與用戶直接相關(guān)的比如驚喜度、意外程度、覆蓋率、新鮮感、用戶滿意度等指標仍可說明。

這些評估的獲得手段一般從用戶反饋、數(shù)據(jù)量化、長期觀察和體驗數(shù)據(jù)來獲得,最終均要轉(zhuǎn)化為量化指標來進行評估,例如使用時長、使用深度、打開比例等等,之后再進行拆解,某一指標與哪些行為相關(guān),進行相關(guān)的行為追查,直接定位。從而達到評估體系的核心意義,到底是好還是不好,如果不好問題在哪兒,定位后進行修正。這部分產(chǎn)品同學只要大概了解有什么方法,即可,具體的原理有算法團隊來做,要都搞清楚太難了,已經(jīng)涉及太多的數(shù)學內(nèi)容,有興趣的課余時間自己學習即可。

6.2 相關(guān)修正

目前采用的用戶模型更新技術(shù)主要可以分成三類:一類是從用戶反饋中抽取新信息添加到用戶模型中的信息增補技術(shù);一類是根據(jù)生態(tài)系統(tǒng)的優(yōu)勝劣汰法則來優(yōu)化用戶模型的自然進化技術(shù);還有一類是通過調(diào)整網(wǎng)絡(luò)連接權(quán)重來自適應更新的神經(jīng)網(wǎng)絡(luò)技術(shù)。

信息增補技術(shù)

這是目前為止使用最多的一類用戶模型更新技術(shù)。它又包括了直接的信息增補以及涉及權(quán)重調(diào)整的信息增補兩種類型。前者將獲取的用戶對推薦的反饋信息直接添加到用戶模型中,典型系統(tǒng)如GroupLens、Ringo、Video Recommender、PC Findert、WEBSELL等。這種更新只是簡單地添加了新信息,并沒有刪除或削減無效舊信息在用戶模型中的作用,因此很可能導致推薦階段假陽性錯誤的出現(xiàn),即將用戶不喜歡的項目推薦給了用戶。

而且隨時間的推移,模型規(guī)模不斷擴大,這帶來了存儲空間占用和模型維護問題。相比之下,采用后者作為更新技術(shù)的系統(tǒng),如LetiziatL、Personal Web Watcher、Webmate、Krakatoa Chronicle和WebCobral ,不僅將用戶新的反饋信息(如新關(guān)鍵詞)增加到用戶模型中,而且還會調(diào)整用戶模型中新、舊信息的權(quán)重,使反映用戶最新偏好的新信息在推薦中起到更為重要的作用,同時無效的舊信息將隨其權(quán)重的不斷減小而最終從模型中被刪除。因此,含權(quán)重調(diào)整的信息增補技術(shù)從一定程度上緩解了直接信息填補存在的問題,但這類技術(shù)的性能很容易受到新信息選擇方法和被增加的新信息數(shù)量的影響。

遺傳算法

遺傳算法是一種基于自然選擇和遺傳機理的迭代搜索優(yōu)化技術(shù),由適應度函數(shù)、染色體種群以及選擇、交叉和變異三個主要操作算子組成。每一代種群包含了若干個個體(被稱為染色體)。依據(jù)每個個體的適應度函數(shù)值,種群經(jīng)過選擇,交叉和變異操作一代代向更優(yōu)良、更適應環(huán)境的方向進化,從而逐漸逼近最優(yōu)解。使用遺傳算法作為模型更新技術(shù)的系統(tǒng)。

通常將用戶模型編碼成一個染色體并隨機產(chǎn)生其他染色體作為初始種群。當初始種群進化迭代到滿足終止條件時,解碼適應度最高的染色體來取代系統(tǒng)目前的剛戶模型即可實現(xiàn)更新。還有一部分系統(tǒng)也使用遺傳算法作為模型的更新機制,但這部分系統(tǒng)通過對信息收集代理而不是用戶模型本身的優(yōu)勝劣汰來間接實現(xiàn)模型更新。當用戶興趣發(fā)生變化時,通過遺傳進化,低性能的舊代理被消除,能直接滿足用戶新必趣或?qū)τ脩艏捌渌碛杏玫拇淼玫椒毖堋?/p>

基于遺傳算法的更新技術(shù)從多個初始點(群體)而不是單點出發(fā)持續(xù)搜索可能的用戶模型構(gòu)成空間,因此是一種高效且能夠最優(yōu)化用戶模型的更新算法。但是基于遺傳算法的更新技術(shù),其適應度函數(shù)和染色體編碼方法要求針對每個問題專門設(shè)計。

神經(jīng)網(wǎng)絡(luò)技術(shù)

神經(jīng)網(wǎng)絡(luò)是一種自適應的更新技術(shù)。當用戶偏好隨時問發(fā)生變化時,神經(jīng)網(wǎng)絡(luò)將自適應地調(diào)整網(wǎng)絡(luò)連接權(quán)重,更新網(wǎng)絡(luò)輸出的識別結(jié)果來跟蹤這種變化。有的更新只在原有類別的基礎(chǔ)上對新舊偏好信息進行分類調(diào)整,有的則建立新的識別類,并剪除代表過時知識的識別類來對應于用戶新興趣的興起和舊興趣的衰亡。在這種情況下,神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生了變化,網(wǎng)絡(luò)可能需要被重新訓練來識別和記憶變化后的用戶偏好。由于神經(jīng)網(wǎng)絡(luò)的更新依賴于前期神經(jīng)網(wǎng)絡(luò)的學習,因此通常只有以神經(jīng)網(wǎng)絡(luò)作為學習技術(shù)的系統(tǒng)才會用其作為更新技術(shù)。

與模型學習技術(shù)相比,用戶模型更新技術(shù)更關(guān)牲just-in-time型的學習而不是模型的建立和執(zhí)行,因此算法需要具有更強的學習效率和對動態(tài)變化的適應能力。但是也有相應問題,目前的模型更新技術(shù)通常只按照固定頻率對模型進行更新,這使得系統(tǒng)無法及時跟蹤和捕捉用戶興趣的變化,從而造成了推薦結(jié)果和用戶實際興趣的差異。

6.3 小結(jié)總結(jié)

本節(jié)闡述評估體系的建立,列舉相關(guān)維度和相關(guān)動作等,并且列舉相關(guān)的修正手段和簡單介紹,以供在長期不斷修正模型和算法,達到更好的效果,更全面優(yōu)質(zhì)的服務(wù)用戶。

7. 全文總結(jié)

整篇文章闡述了搭建推薦體系的全流程,從思路表述、標簽體系、用戶體系、項目體系、推薦環(huán)節(jié)和評估體系的建立和相關(guān)細節(jié)及當前的模式,技術(shù)手段等。盡量完整和周密的闡述了全部流程以供梳理和參考,在正文后還有附錄部分,闡述詳細的算法和摘錄的相關(guān)方法以共參考。

凱文凱利在《失控》一書中提出“共同進化”的觀點:

進化就是不斷適應環(huán)境以滿足自身的需求。共同進化是更全面的進化觀點,就是不斷適應環(huán)境以滿足彼此的需求。媒介通過競爭不斷進化適應環(huán)境,同時也提供了更好的服務(wù)更多的選擇給用戶,滿足了用戶日益增長的需求。

在當前,即使使用推薦系統(tǒng),也并沒有根本上解決人們?nèi)绾斡行Й@得信息的難題。所以仍可以嘗試探索更加智能的信息獲取模式,以及更加自然的人機交互接口。

猶如“大白”一樣的貼心,處處想在用戶前面,在合適的時候?qū)⑾肟吹男畔⒄故境鰜?,隨情緒而變,畢竟人類心理活動是十分微妙的,盡量通過規(guī)律摸清人類的喜好遷移,洞察微妙的行為變化,是未來努力的方向。

8. 參考資料

  1. 《zouxy09》——部分機器學習資料來源;
  2. 《LeftNotEasy – Wangda Tan》——同上;
  3. 《深入探討 | 其實你并不懂產(chǎn)品標簽機制》——標簽部分部分思路來源;
  4. 《淺談矩陣分解在推薦系統(tǒng)中的應用》——向量拆解部分知識來源;
  5. 《網(wǎng)易云音樂的歌單推薦算法是怎樣的?》——當前主流推薦算法來源;
  6. 《百分點研發(fā)總監(jiān)蘇海波:大數(shù)據(jù)用戶畫像的方法及營銷實踐》——用戶畫像部分價值;
  7. 省略一百余篇推薦、算法、心理學、行為學專業(yè)論文,實在太多,不便復制上來,表示統(tǒng)一感謝。

附錄5常見推薦算法

23

下篇,完,全文完,可以加我微信所要全文PDF,排版相對會更好,謝謝觀看。

相關(guān)閱讀:

深度丨從零搭建推薦體系:概述及標簽體系搭建(上)

深度丨從零搭建推薦體系:用戶體系、項目體系和推薦體系(中)

深度丨從零搭建推薦體系: 推薦體系和評估體系(下)

個性化推薦技術(shù)|產(chǎn)品經(jīng)理和產(chǎn)品運營的必修課

在談推薦系統(tǒng)之前,請先避免這4個問題

#專欄作家#

吳邢一夫(微信號mystic326531548),人人都是產(chǎn)品經(jīng)理專欄作家。3年產(chǎn)品經(jīng)理工作經(jīng)驗,需求、用戶、數(shù)據(jù)有深入研究。歡迎交流想法,拒絕無意義添加好友。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 千人百面 中的A與B的COS值,我算的是0.63333

    來自上海 回復
  2. 給大佬跪了

    來自廣東 回復