在线兔费欧美黄色网站,国产灌醉迷晕精品视频,激情综合色五月丁香六月欧美

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

愛奇藝個性化推薦排序?qū)嵺`

36大數(shù)據(jù)

2017-11-14

4 評論 26985 瀏覽 199 收藏

17 分鐘

在海量的內(nèi)容在滿足了我們需求的同時，也使我們尋找所需內(nèi)容更加困難，在這種情況下個性化推薦應(yīng)運(yùn)而生。

在當(dāng)前這個移動互聯(lián)網(wǎng)時代，除了專業(yè)內(nèi)容的豐富，UGC內(nèi)容更是爆發(fā)式發(fā)展，每個用戶既是內(nèi)容的消費(fèi)者，也成為了內(nèi)容的創(chuàng)造者。這些海量的內(nèi)容在滿足了我們需求的同時，也使我們尋找所需內(nèi)容更加困難，在這種情況下個性化推薦應(yīng)運(yùn)而生。

個性化推薦是在大數(shù)據(jù)分析和人工智能技術(shù)的基礎(chǔ)上，通過研究用戶的興趣偏好，進(jìn)行個性化計算，從而給用戶提供高質(zhì)量的個性化內(nèi)容，解決信息過載的問題，更好的滿足用戶的需求。

愛奇藝推薦系統(tǒng)介紹

我們的推薦系統(tǒng)主要分為兩個階段，召回階段和排序階段。

召回階段根據(jù)用戶的興趣和歷史行為，同千萬級的視頻庫中挑選出一個小的候選集（幾百到幾千個視頻）。這些候選都是用戶感興趣的內(nèi)容，排序階段在此基礎(chǔ)上進(jìn)行更精準(zhǔn)的計算，能夠給每一個視頻進(jìn)行精確打分，進(jìn)而從成千上萬的候選中選出用戶最感興趣的少量高質(zhì)量內(nèi)容（十幾個視頻）。

推薦系統(tǒng)的整體結(jié)構(gòu)如圖所示，各個模塊的作用如下：

用戶畫像：包含用戶的人群屬性、歷史行為、興趣內(nèi)容和偏好傾向等多維度的分析，是個性化的基石
特征工程：包含了了視頻的類別屬性，內(nèi)容分析，人群偏好和統(tǒng)計特征等全方位的描繪和度量，是視頻內(nèi)容和質(zhì)量分析的基礎(chǔ)
召回算法：包含了多個通道的召回模型，比如協(xié)同過濾，主題模型，內(nèi)容召回和SNS等通道，能夠從視頻庫中選出多樣性的偏好內(nèi)容
排序模型：對多個召回通道的內(nèi)容進(jìn)行同一個打分排序，選出最優(yōu)的少量結(jié)果。
除了這些之外推薦系統(tǒng)還兼顧了推薦結(jié)果的多樣性，新鮮度，逼格和驚喜度等多個維度，更能夠滿足用戶多樣性的需求。

當(dāng)代模型

GBDT+FM模型，對embedding等具有結(jié)構(gòu)信息的深度特征利用不充分，而深度學(xué)習(xí)（Deep Neural Network）能夠?qū)η度胧剑╡mbedding）特征和普通稠密特征進(jìn)行學(xué)習(xí)，抽取出深層信息，提高模型的準(zhǔn)確性，并已經(jīng)成功應(yīng)用到眾多機(jī)器學(xué)習(xí)領(lǐng)域。因此我們將DNN引入到排序模型中，提高排序整體質(zhì)量。

DNN+GBDT+FM的ensemble模型架構(gòu)如圖所示，F(xiàn)M層作為模型的最后一層，即融合層，其輸入由三部分組成：DNN的最后一層隱藏層、GBDT的輸出葉子節(jié)點(diǎn)、高維稀疏特征。DNN+GBDT+FM的ensemble模型架構(gòu)介紹如下所示，該模型上線后相對于GBDT+FM有4%的效果提升。

DNN模型

使用全連接網(wǎng)絡(luò)，共三個隱藏層。
隱藏節(jié)點(diǎn)數(shù)目分別為1024，512和256。
預(yù)訓(xùn)練好的用戶和視頻的Embedding向量，包含基于用戶行為以及基于語義內(nèi)容的兩種Embedding。
DNN能從具有良好數(shù)學(xué)分布的特征中抽取深層信息，比如embedding特征，歸一化后統(tǒng)計特征等等。
雖然DNN并不要求特征必須歸一化，不過測試發(fā)現(xiàn)有些特征因為outlier的波動范圍過大，會導(dǎo)致DNN效果下降。

GBDT模型

單獨(dú)進(jìn)行訓(xùn)練，輸入包含歸一化和未歸一化的稠密特征。
能處理未歸一化的連續(xù)和離散特征。
能根據(jù)熵增益自動對輸入特征進(jìn)行離散和組合。

FM融合層

FM模型與DNN模型作為同一個網(wǎng)絡(luò)同時訓(xùn)練。
將DNN特征，GBDT輸出和稀疏特征進(jìn)行融合并交叉。

使用分布式的TensorFlow進(jìn)行訓(xùn)練

使用基于TensorFlow Serving的微服務(wù)進(jìn)行在線預(yù)測

DNN+GBDT+FM的ensemble模型使用的是Adam優(yōu)化器。Adam結(jié)合了The Adaptive Gradient Algorithm（AdaGrad）和Root Mean Square Propagation（RMSProp）算法。具有更優(yōu)的收斂速率，每個變量有獨(dú)自的下降步長，整體下降步長會根據(jù)當(dāng)前梯度進(jìn)行調(diào)節(jié)，能夠適應(yīng)帶噪音的數(shù)據(jù)。實驗測試了多種優(yōu)化器，Adam的效果是最優(yōu)的。

工業(yè)界DNN ranking現(xiàn)狀

Youtube于2016年推出DNN排序算法。
上海交通大學(xué)和UCL于2016年推出Product-based Neural Network（PNN）網(wǎng)絡(luò)進(jìn)行用戶點(diǎn)擊預(yù)測。PNN相當(dāng)于在DNN層做了特征交叉，我們的做法是把特征交叉交給FM去做，DNN專注于深層信息的提取。
Google于2016年推出Wide And Deep Model，這個也是我們當(dāng)前模型的基礎(chǔ)，在此基礎(chǔ)上使用FM替換了Cross Feature LR，簡化了計算復(fù)雜度，提高交叉的泛化能力。

阿里今年使用attention機(jī)制推出了Deep Interest Network（DIN）進(jìn)行商品點(diǎn)擊率預(yù)估，優(yōu)化embedding向量的準(zhǔn)確性，值得借鑒。

總結(jié)

推薦系統(tǒng)的排序是一個經(jīng)典的機(jī)器學(xué)習(xí)場景，對于推薦結(jié)果影響也十分重大，除了對模型算法的精益求精之外，更需要對業(yè)務(wù)的特征，工程的架構(gòu)，數(shù)據(jù)處理的細(xì)節(jié)和pipeline的流程進(jìn)行仔細(xì)推敲和深入的優(yōu)化。

Ranking引入DNN僅僅是個開始，后續(xù)還需要在模型架構(gòu)，Embedding特征，多樣性，冷啟動和多目標(biāo)學(xué)習(xí)中做更多的嘗試，提供更準(zhǔn)確，更人性化的推薦，優(yōu)化用戶體驗。

End.

作者：Michael

來源：http://www.36dsj.com/archives/102164

本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@36大數(shù)據(jù)，作者@Michael

題圖來自PEXELS，基于CC0協(xié)議

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

內(nèi)容個性化推薦的那些事兒文章被收錄于該專欄

共 16 篇文章34560 人已學(xué)習(xí)

36大數(shù)據(jù)

大數(shù)據(jù)第一平臺

119篇作品 2614853總閱讀量

歸因系統(tǒng)淺談

12-264421 瀏覽

產(chǎn)品周報241期 | 數(shù)字人民幣新增“微信支付”錢包快付，釘釘收購協(xié)同辦公廠商“我來wolai”

03-104377 瀏覽

企業(yè)號只要不投流，一點(diǎn)流量都沒有，該怎么辦？

08-022223 瀏覽

Temu狂飆，賣家分化：有人利潤高過亞馬遜，有人一單賺不到一塊錢

03-273032 瀏覽

GENESYS：零售體驗的同理心差距

11-10969 瀏覽

評論

 假益達(dá)

收獲非常大產(chǎn)品經(jīng)理也能看懂而且還能收獲一堆核心迭代思路和算法迭代指標(biāo)，例如特征轉(zhuǎn)換成本，特征數(shù)量，特征記憶能力，結(jié)構(gòu)信息的深層特征學(xué)習(xí)，泛化能力，復(fù)雜度。以上指標(biāo)可以指導(dǎo)我們更好迭代各大場景的算法，如果未來能結(jié)合場景就更好了

最近回復(fù)
歲月

太深奧，還得深入學(xué)習(xí)，不能放松……

最近來自山東回復(fù)
大米半

太深奧

最近來自福建回復(fù)