日本亚洲电影天堂,久久99久久99精品免观看女同 ,中文字幕综合视频

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

四個步驟，構(gòu)建個性推薦產(chǎn)品內(nèi)容池

吳迎賓

2017-01-20

4 評論 19977 瀏覽 143 收藏

9 分鐘

文章介紹了通過建大池、粗篩、細篩、精篩，四個步驟搭建內(nèi)容池的一個過程，與大家分享，希望可以給大家?guī)韱l(fā)。

個性化推薦產(chǎn)品有三個核心要素：用戶、內(nèi)容和數(shù)據(jù)。今天專門分享一下構(gòu)建內(nèi)容池方面的一些心得。個性化推薦產(chǎn)品的算法是相似的，差別就在于內(nèi)容上。視頻，商品，新聞，音樂，形態(tài)各異，消費方式各異，但構(gòu)建內(nèi)容池的思路是相通的。

對于一款個性化推薦產(chǎn)品來說，構(gòu)建一個好的內(nèi)容池一般分為四個步驟：大池->粗篩->細篩->精篩。構(gòu)建過程和使用過程剛好互逆：優(yōu)先召回精篩池，隨后才可能是細篩、粗篩、大池。

下面以構(gòu)建一個視頻類個性化推薦產(chǎn)品為例，分別詳細說明。

建大池

首當其沖就是粗略規(guī)劃好自己的內(nèi)容的原始來源。要干推薦這活，首先要問自己：內(nèi)容哪里來？內(nèi)容原始來源一般有三種：生，買，借。

第一種，生。

也就是自食其力，鼓勵用戶在自己產(chǎn)品平臺上創(chuàng)建內(nèi)容，俗稱UGC，比如快手就屬于這種，以及自己組建編輯團隊創(chuàng)建內(nèi)容，大多數(shù)媒體型網(wǎng)站都屬于這類，俗稱PGC。這一類內(nèi)容都是自己的，算是站內(nèi)資源。如果站內(nèi)資源較為豐富的話，那就好辦了。當站內(nèi)資源都足夠優(yōu)質(zhì)時，則可以直接作為內(nèi)容池，但實際上大部分網(wǎng)站的內(nèi)容都有不少雜質(zhì)，尤其是UGC內(nèi)容。

從站內(nèi)資源中找到符合要求的內(nèi)容，不外乎兩個思路。一個是做減法；一個是做加法。做減法就是找那少部分不入流的將其去掉，適合大部分內(nèi)容都是優(yōu)質(zhì)的情況；做加法就是從雞群中找立鶴。什么樣的內(nèi)容會是好內(nèi)容？通常有幾種：

經(jīng)得起時間檢驗的內(nèi)容，通常是專業(yè)編輯們過目之后的內(nèi)容，比如：各個網(wǎng)站的首頁、頻道首頁、專題等
數(shù)據(jù)效果好的內(nèi)容，比如：推薦/搜索模塊點擊量、點擊率較高的（好壞的衡量指標根據(jù)產(chǎn)品目標而定，可以是點擊率、UP值等）
可信任的內(nèi)容源產(chǎn)生的內(nèi)容，比如：視頻網(wǎng)站的優(yōu)質(zhì)PGC

第二種，買。

通過公司之間的合作，得到好的內(nèi)容，例如淘寶的商品被推薦在微博上。這個多是商業(yè)合作，此處不講。

第三種，借。

站外抓取這件事是一個風險極高的事。第一個就是版權(quán)問題，當然可以通過避風港原則來規(guī)避這一點；第二個就是技術(shù)問題，如一旦抓取目標網(wǎng)站頁面結(jié)構(gòu)變化，就影響抓取的效果，頁面轉(zhuǎn)碼以統(tǒng)一成自己平臺的風格；第三個是基因問題，某個站的內(nèi)容已有一定的基因，是否適合自己的平臺，一股腦放出去可能是有違和感。那為什么這么多風險，我們還是建議要“借”呢？高風險，高收益嘛，你懂的。

當拿到初始化的內(nèi)容后，推薦的大池就完成了。

粗篩池

我們已經(jīng)“警告”過，構(gòu)建大池，勢必會引入一些雜質(zhì)。雜質(zhì)是沒有資格在一個應用內(nèi)流轉(zhuǎn)的。我們所說的雜質(zhì)包含：

背離產(chǎn)品價值觀的，如低俗擦邊球，色情的；
干擾用戶正常消費的，如騙點擊內(nèi)容，垃圾內(nèi)容；
威脅平臺存活的，如政治類內(nèi)容。

構(gòu)建粗篩池，就是從大池中將這些沒有資格的內(nèi)容分揀出來扔掉，同時進行初步的質(zhì)量評價。

識別這些雜質(zhì)，一般是機器+人工的模式。我們可以根據(jù)內(nèi)容本身、內(nèi)容提供商、抓取源等維度進一步對內(nèi)容池去噪。

對內(nèi)容質(zhì)量打分，主要就是構(gòu)建一個打分模型，利用相關(guān)特征擬合一個分數(shù)。對于一個視頻網(wǎng)站，可以用到的特征有：內(nèi)容的發(fā)布時間、視頻長度、視頻熱度、非廣告/政治敏感/色情/黑名單、標題質(zhì)量，以及視頻的歷史表現(xiàn)，如點擊率、點擊量、停留時長等。

對內(nèi)容提供者打分方法類似，主要區(qū)別在于特征，對于視頻應用來說，可能有：上傳者歷史視頻的播放量、點擊率、播放完成率、贊/踩等；上傳者的等級、活躍度、社會影響力等。

最終，根據(jù)內(nèi)容質(zhì)量分數(shù)和內(nèi)容上傳者分數(shù)，就建立了一個內(nèi)容池優(yōu)選模型，對已有的視頻做一個排序，其中低質(zhì)和劣質(zhì)的內(nèi)容可以直接過濾掉。

細篩池

細篩池是在粗篩池之上，結(jié)合具體的推薦場景和業(yè)務目標，進行一些人為干預：人工調(diào)權(quán)、調(diào)整多樣性等。

先說人工調(diào)權(quán)，需要首先增加一個字段，專門用于設置人工權(quán)重。大家不要覺得一提到人工調(diào)權(quán)就有點“拿不出手”，其實人工權(quán)重是必不可少的，某些信息無法通過自有產(chǎn)品數(shù)據(jù)及時反饋到當前內(nèi)容上來，如上傳者是微博上的KOL，或是視頻網(wǎng)站的PGC，這些站外信息雖然人知道，但是沒有數(shù)據(jù)就無法讓機器知道，這樣就可以通過人工對其調(diào)權(quán)，以此將其反應到自己的內(nèi)容池中。

再說多樣性。內(nèi)容池在各個主體上分布一定是不均衡的，某些熱門的主題會內(nèi)容較多，而某些冷門的主題會內(nèi)容較少。這也需要人工干預多樣性，適當幫助補充一些冷門主題的內(nèi)容池。

精篩池

內(nèi)容池構(gòu)建機制到目前，已經(jīng)可以上線使用了。但是這其中無論是大池、粗篩池、細篩池，所依賴的模型還是離線構(gòu)建的，調(diào)整起來有一定的延遲，在實時場景下我們應該考慮更及時的動態(tài)篩選。

因為我們要關(guān)心很多諸如這樣的問題：當內(nèi)容池上線被用戶看到后，到底效果如何？低效的如何實時被淘汰？為了解決這些問題，所以最后設置了精篩池這個環(huán)節(jié)。

這需要采集實時的數(shù)據(jù)，具體流程如下：

結(jié)語

曾有大牛說過，推薦的影響要素中，產(chǎn)品形態(tài)（可以理解成UI/UE）占40%、數(shù)據(jù)30%、領域知識20%、算法10%。這里數(shù)據(jù)就包含內(nèi)容池。

實戰(zhàn)當中，我發(fā)現(xiàn)內(nèi)容池的重要性更是超過預期。在之前做視頻Feed的過程中，每一次播放量的跨越，幾乎都是內(nèi)容池的功勞。如用CF方法對內(nèi)容池進行擴量、內(nèi)容池優(yōu)選模型、內(nèi)容池準入準出規(guī)則的調(diào)整等。所以推薦產(chǎn)品，尤其是內(nèi)容產(chǎn)品，建議在內(nèi)容池這塊花大力氣。

本文由 @吳迎賓原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

個性化推薦算法是什么，怎么做？文章被收錄于該專欄

共 12 篇文章44637 人已學習

吳迎賓

吳迎賓（個人微信號：kudoss），優(yōu)酷個性化推薦產(chǎn)品線負責人

4篇作品 93886總閱讀量

從《長安的荔枝》看如何成為一個“好運營”

02-151732 瀏覽

當會員服務愛上「打補丁」，長視頻的「舊衣」變靚了嗎？

02-131898 瀏覽

產(chǎn)品經(jīng)理如何應對變化？

08-117445 瀏覽

互聯(lián)網(wǎng)看臉，有哪些生意經(jīng)？

06-151813 瀏覽

品牌1號位：位置、節(jié)奏、策略、兵力

05-224625 瀏覽

評論

James南方

怎么理解這一句：
「推薦的影響要素中，產(chǎn)品形態(tài)（可以理解成UI/UE）占40%、數(shù)據(jù)30%、領域知識20%、算法10%?！?/p>

最近來自四川回復
??張穎

感謝分享，想請教下，從細篩是怎么到精篩的呢？一個內(nèi)容只會在一個池子里么？如果是從精篩開始用，為啥是在細篩環(huán)節(jié)補充內(nèi)容呢？期待回答，感謝 ??

最近來自浙江回復
Palowlto

感覺文章沒有寫完，就文章講到的內(nèi)容與”個性推薦”沒太大的關(guān)系。

最近來自四川回復
楊簡

請問內(nèi)容池是干嘛的？用在什么階段？

最近來自浙江回復