四個步驟,構(gòu)建個性推薦產(chǎn)品內(nèi)容池
文章介紹了通過建大池、粗篩、細篩、精篩,四個步驟搭建內(nèi)容池的一個過程,與大家分享,希望可以給大家?guī)韱l(fā)。
個性化推薦產(chǎn)品有三個核心要素:用戶、內(nèi)容和數(shù)據(jù)。今天專門分享一下構(gòu)建內(nèi)容池方面的一些心得。個性化推薦產(chǎn)品的算法是相似的,差別就在于內(nèi)容上。視頻,商品,新聞,音樂,形態(tài)各異,消費方式各異,但構(gòu)建內(nèi)容池的思路是相通的。
對于一款個性化推薦產(chǎn)品來說,構(gòu)建一個好的內(nèi)容池一般分為四個步驟:大池->粗篩->細篩->精篩。構(gòu)建過程和使用過程剛好互逆:優(yōu)先召回精篩池,隨后才可能是細篩、粗篩、大池。
下面以構(gòu)建一個視頻類個性化推薦產(chǎn)品為例,分別詳細說明。
建大池
首當其沖就是粗略規(guī)劃好自己的內(nèi)容的原始來源。要干推薦這活,首先要問自己:內(nèi)容哪里來?內(nèi)容原始來源一般有三種:生,買,借。
第一種,生。
也就是自食其力,鼓勵用戶在自己產(chǎn)品平臺上創(chuàng)建內(nèi)容,俗稱UGC,比如快手就屬于這種,以及自己組建編輯團隊創(chuàng)建內(nèi)容,大多數(shù)媒體型網(wǎng)站都屬于這類,俗稱PGC。這一類內(nèi)容都是自己的,算是站內(nèi)資源。如果站內(nèi)資源較為豐富的話,那就好辦了。當站內(nèi)資源都足夠優(yōu)質(zhì)時,則可以直接作為內(nèi)容池,但實際上大部分網(wǎng)站的內(nèi)容都有不少雜質(zhì),尤其是UGC內(nèi)容。
從站內(nèi)資源中找到符合要求的內(nèi)容,不外乎兩個思路。一個是做減法;一個是做加法。做減法就是找那少部分不入流的將其去掉,適合大部分內(nèi)容都是優(yōu)質(zhì)的情況;做加法就是從雞群中找立鶴。什么樣的內(nèi)容會是好內(nèi)容?通常有幾種:
- 經(jīng)得起時間檢驗的內(nèi)容,通常是專業(yè)編輯們過目之后的內(nèi)容,比如:各個網(wǎng)站的首頁、頻道首頁、專題等
- 數(shù)據(jù)效果好的內(nèi)容,比如:推薦/搜索模塊點擊量、點擊率較高的(好壞的衡量指標根據(jù)產(chǎn)品目標而定,可以是點擊率、UP值等)
- 可信任的內(nèi)容源產(chǎn)生的內(nèi)容,比如:視頻網(wǎng)站的優(yōu)質(zhì)PGC
第二種,買。
通過公司之間的合作,得到好的內(nèi)容,例如淘寶的商品被推薦在微博上。這個多是商業(yè)合作,此處不講。
第三種,借。
站外抓取這件事是一個風險極高的事。第一個就是版權(quán)問題,當然可以通過避風港原則來規(guī)避這一點;第二個就是技術(shù)問題,如一旦抓取目標網(wǎng)站頁面結(jié)構(gòu)變化,就影響抓取的效果,頁面轉(zhuǎn)碼以統(tǒng)一成自己平臺的風格;第三個是基因問題,某個站的內(nèi)容已有一定的基因,是否適合自己的平臺,一股腦放出去可能是有違和感。那為什么這么多風險,我們還是建議要“借”呢?高風險,高收益嘛,你懂的。
當拿到初始化的內(nèi)容后,推薦的大池就完成了。
粗篩池
我們已經(jīng)“警告”過,構(gòu)建大池,勢必會引入一些雜質(zhì)。雜質(zhì)是沒有資格在一個應用內(nèi)流轉(zhuǎn)的。我們所說的雜質(zhì)包含:
- 背離產(chǎn)品價值觀的,如低俗擦邊球,色情的;
- 干擾用戶正常消費的,如騙點擊內(nèi)容,垃圾內(nèi)容;
- 威脅平臺存活的,如政治類內(nèi)容。
構(gòu)建粗篩池,就是從大池中將這些沒有資格的內(nèi)容分揀出來扔掉,同時進行初步的質(zhì)量評價。
識別這些雜質(zhì),一般是機器+人工的模式。我們可以根據(jù)內(nèi)容本身、內(nèi)容提供商、抓取源等維度進一步對內(nèi)容池去噪。
對內(nèi)容質(zhì)量打分,主要就是構(gòu)建一個打分模型,利用相關(guān)特征擬合一個分數(shù)。對于一個視頻網(wǎng)站,可以用到的特征有:內(nèi)容的發(fā)布時間、視頻長度、視頻熱度、非廣告/政治敏感/色情/黑名單、標題質(zhì)量,以及視頻的歷史表現(xiàn),如點擊率、點擊量、停留時長等。
對內(nèi)容提供者打分方法類似,主要區(qū)別在于特征,對于視頻應用來說,可能有:上傳者歷史視頻的播放量、點擊率、播放完成率、贊/踩等;上傳者的等級、活躍度、社會影響力等。
最終,根據(jù)內(nèi)容質(zhì)量分數(shù)和內(nèi)容上傳者分數(shù),就建立了一個內(nèi)容池優(yōu)選模型,對已有的視頻做一個排序,其中低質(zhì)和劣質(zhì)的內(nèi)容可以直接過濾掉。
細篩池
細篩池是在粗篩池之上,結(jié)合具體的推薦場景和業(yè)務目標,進行一些人為干預:人工調(diào)權(quán)、調(diào)整多樣性等。
先說人工調(diào)權(quán),需要首先增加一個字段,專門用于設置人工權(quán)重。大家不要覺得一提到人工調(diào)權(quán)就有點“拿不出手”,其實人工權(quán)重是必不可少的,某些信息無法通過自有產(chǎn)品數(shù)據(jù)及時反饋到當前內(nèi)容上來,如上傳者是微博上的KOL,或是視頻網(wǎng)站的PGC,這些站外信息雖然人知道,但是沒有數(shù)據(jù)就無法讓機器知道,這樣就可以通過人工對其調(diào)權(quán),以此將其反應到自己的內(nèi)容池中。
再說多樣性。內(nèi)容池在各個主體上分布一定是不均衡的,某些熱門的主題會內(nèi)容較多,而某些冷門的主題會內(nèi)容較少。這也需要人工干預多樣性,適當幫助補充一些冷門主題的內(nèi)容池。
精篩池
內(nèi)容池構(gòu)建機制到目前,已經(jīng)可以上線使用了。但是這其中無論是大池、粗篩池、細篩池,所依賴的模型還是離線構(gòu)建的,調(diào)整起來有一定的延遲,在實時場景下我們應該考慮更及時的動態(tài)篩選。
因為我們要關(guān)心很多諸如這樣的問題:當內(nèi)容池上線被用戶看到后,到底效果如何?低效的如何實時被淘汰?為了解決這些問題,所以最后設置了精篩池這個環(huán)節(jié)。
這需要采集實時的數(shù)據(jù),具體流程如下:
結(jié)語
曾有大牛說過,推薦的影響要素中,產(chǎn)品形態(tài)(可以理解成UI/UE)占40%、數(shù)據(jù)30%、領域知識20%、算法10%。這里數(shù)據(jù)就包含內(nèi)容池。
實戰(zhàn)當中,我發(fā)現(xiàn)內(nèi)容池的重要性更是超過預期。在之前做視頻Feed的過程中,每一次播放量的跨越,幾乎都是內(nèi)容池的功勞。如用CF方法對內(nèi)容池進行擴量、內(nèi)容池優(yōu)選模型、內(nèi)容池準入準出規(guī)則的調(diào)整等。所以推薦產(chǎn)品,尤其是內(nèi)容產(chǎn)品,建議在內(nèi)容池這塊花大力氣。
本文由 @吳迎賓 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
怎么理解這一句:
「推薦的影響要素中,產(chǎn)品形態(tài)(可以理解成UI/UE)占40%、數(shù)據(jù)30%、領域知識20%、算法10%?!?/p>
感謝分享,想請教下,從細篩是怎么到精篩的呢?一個內(nèi)容只會在一個池子里么?如果是從精篩開始用,為啥是在細篩環(huán)節(jié)補充內(nèi)容呢?期待回答,感謝 ??
感覺文章沒有寫完,就文章講到的內(nèi)容與”個性推薦”沒太大的關(guān)系。
請問內(nèi)容池是干嘛的?用在什么階段?