策略產(chǎn)品經(jīng)理必懂標(biāo)簽生成策略及工程化邏輯
本文介紹了抖音推薦系統(tǒng)中的標(biāo)簽生成和迭代過(guò)程,以及如何通過(guò)用戶(hù)行為數(shù)據(jù)構(gòu)建標(biāo)簽體系,從而實(shí)現(xiàn)精準(zhǔn)的內(nèi)容推薦策略。
大家好,我是策略產(chǎn)品夏師傅。
男士的抖音里面為什么十個(gè)推薦里有八個(gè)是大長(zhǎng)腿,它是怎么做的?
注意了,這個(gè)時(shí)候可能是你被打標(biāo)了。
那么標(biāo)簽是怎么生成的,又是怎么迭代的,我們一起來(lái)看看。
其實(shí),當(dāng)你是新用戶(hù)的時(shí)候,抖音并不知道你喜歡什么樣的視頻,這時(shí)候給你推薦的視頻完全是隨機(jī)推薦一些熱度高的視頻,在這些視頻的背后貼滿(mǎn)了一個(gè)個(gè)屬性標(biāo)簽。
比如:一個(gè)小姐姐的熱舞視頻,視頻的背后標(biāo)簽可能就是“美女”、“大長(zhǎng)腿”、“跳舞”、“黑絲”等諸多標(biāo)簽;而一個(gè)做菜的美食視頻標(biāo)簽可能就是“美食”、“家?!薄ⅰ皬N藝教學(xué)”等諸多標(biāo)簽。
隨著你行為數(shù)據(jù)的豐富,你相應(yīng)的行為會(huì)加深生產(chǎn)標(biāo)簽的權(quán)重。比如:你在某個(gè)視頻的停留時(shí)間更長(zhǎng),觀(guān)看次數(shù)更多,點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)等互動(dòng)行為更多,那么這個(gè)視頻背后的標(biāo)簽在你的賬號(hào)上權(quán)重就會(huì)上升。
其實(shí),一句話(huà):推薦內(nèi)容逐漸精準(zhǔn)的過(guò)程就是一個(gè)貼標(biāo)簽、統(tǒng)計(jì)標(biāo)簽、匹配標(biāo)簽和結(jié)合其他維度屬性的綜合過(guò)程。
通過(guò)一定數(shù)量的行為數(shù)據(jù)統(tǒng)計(jì),抖音就能大概知道你的喜好傾向,接下來(lái)的推薦視頻會(huì)根據(jù)你的喜好傾向,推薦帶有相同標(biāo)簽的高質(zhì)量視頻以做進(jìn)一步的分析,逐步完善,針對(duì)你喜好的推薦會(huì)越來(lái)越精準(zhǔn),獲得你更多停留時(shí)長(zhǎng)的概率也就越高。
抖音圍繞著標(biāo)簽體系、召回模型、融合模型、排序規(guī)則等其他維度屬性排序做了一個(gè)綜合的策略體系。
用戶(hù)喜歡什么類(lèi)型的視頻我們是不知道的,并且計(jì)算機(jī)無(wú)法理解人們主觀(guān)的思維,所以我們需要收集并分析用戶(hù)在平臺(tái)產(chǎn)生的行為數(shù)據(jù),把這些行為數(shù)據(jù)進(jìn)行精煉、歸類(lèi),形成一套完整閉環(huán)的標(biāo)簽體系去描繪用戶(hù)的數(shù)據(jù)形象。
標(biāo)簽體系的應(yīng)用流程
一套優(yōu)秀的標(biāo)簽體系結(jié)構(gòu)可以讓計(jì)算機(jī)更好的理解這些行為數(shù)據(jù),對(duì)于用戶(hù)意圖的判斷和數(shù)據(jù)召回模型的優(yōu)先級(jí)都有很重要的輔助作用。
整個(gè)標(biāo)簽體系的搭建圍繞著三個(gè)步驟去展開(kāi):標(biāo)簽建模、標(biāo)簽提煉、標(biāo)簽聚合
01 標(biāo)簽建模
搭建思路是將數(shù)據(jù)分為四個(gè)層級(jí)模型,第四層為預(yù)測(cè)模型,但預(yù)測(cè)模型的算法需要大量數(shù)據(jù)進(jìn)行演算,本次不做討論,所以暫且分為三層進(jìn)行構(gòu)建。
標(biāo)簽體系的流程架構(gòu)
第一層主要是原始數(shù)據(jù)庫(kù),在這一層,我們考慮到數(shù)據(jù)存儲(chǔ)、采集難度和成本方面的因素,盡可能在可控成本內(nèi)獲取到盡可能多的原始數(shù)據(jù),因?yàn)楹竺嫠袠?biāo)簽體系構(gòu)建都將依托于原始數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行計(jì)算、分析、歸類(lèi)、建模,所以在收集階段,原始數(shù)據(jù)庫(kù)的搭建要盡可能的全面,故在這一層的關(guān)鍵詞是:大量、數(shù)據(jù)。
而第二層級(jí)是根據(jù)第一層的原始數(shù)據(jù)通過(guò)算法計(jì)算、提煉、規(guī)劃成可以組成標(biāo)簽體系的一系列通用標(biāo)簽,而這類(lèi)標(biāo)簽的存在形式類(lèi)似于矩陣或者多個(gè)類(lèi)別的集合。
在業(yè)務(wù)需要時(shí),該類(lèi)標(biāo)簽從數(shù)量和維度都可以增加以滿(mǎn)足業(yè)務(wù)需求。所以第二層的關(guān)鍵詞是:通用、標(biāo)簽。
而對(duì)于第三層,我們可以通過(guò)對(duì)標(biāo)簽的聚合、提煉、建模等方式構(gòu)成用戶(hù)的多個(gè)“面”,并運(yùn)用于多個(gè)場(chǎng)景。例如:說(shuō)小明在聽(tīng)音樂(lè)時(shí)的畫(huà)像是搖滾、年輕、流行、活潑;而在學(xué)習(xí)時(shí)的畫(huà)像是認(rèn)真、專(zhuān)心、投入、經(jīng)濟(jì)學(xué)等。
通過(guò)用戶(hù)不同的角度實(shí)際運(yùn)用于各類(lèi)業(yè)務(wù)需求,實(shí)現(xiàn)精準(zhǔn)化。所以在第三層的關(guān)鍵詞是:聚合、運(yùn)用。
02 標(biāo)簽提煉
獲得了大量的原始數(shù)據(jù)后,我們想把這些數(shù)據(jù)運(yùn)用起來(lái),就需要把用戶(hù)的數(shù)據(jù)更加具象化。因?yàn)橐呀?jīng)把用戶(hù)數(shù)據(jù)采集起來(lái)了,基礎(chǔ)的標(biāo)簽可以直接運(yùn)用內(nèi)容的標(biāo)簽,通過(guò)對(duì)用戶(hù)感興趣的內(nèi)容給用戶(hù)貼標(biāo)簽。
1. 內(nèi)容標(biāo)簽化
首先要把內(nèi)容標(biāo)簽化了,根據(jù)行為的不同制定不同類(lèi)別不同級(jí)別的標(biāo)簽,可以是描述性,也可以是具象性的,根據(jù)實(shí)際業(yè)務(wù)需求去適應(yīng)即可,形式并不限制。但內(nèi)容的標(biāo)簽最好具有通用性,可以是適用于采集到的用戶(hù)數(shù)據(jù)的大部分的主體內(nèi)容。例,房產(chǎn)類(lèi)網(wǎng)站,這個(gè)類(lèi)別的標(biāo)簽可以是房子的區(qū)域、單價(jià)、面積、數(shù)量等。
內(nèi)容標(biāo)簽化
內(nèi)容標(biāo)簽化的時(shí)候需要注意,標(biāo)簽值需要一個(gè)統(tǒng)一的維度,在維度統(tǒng)一的前提下,后期使用或者比較數(shù)據(jù)才具有對(duì)比性。例,圖1-3,區(qū)域的維度需要統(tǒng)一,如果決定是以行政區(qū)為維度,那么每個(gè)房源信息中的“區(qū)域”都需要以這個(gè)維度去統(tǒng)計(jì),不能以其他維度進(jìn)行統(tǒng)計(jì)。這個(gè)邏輯下來(lái),房源id為101的標(biāo)簽信息為:豐臺(tái)區(qū)、3單價(jià)、3套房源、40-50平方、….
2. 用戶(hù)標(biāo)簽化
接下來(lái)就是把內(nèi)容所代表的標(biāo)簽根據(jù)用戶(hù)的行為賦予在用戶(hù)身上,這個(gè)過(guò)程就要研究用戶(hù)的興趣傾向,通過(guò)對(duì)用戶(hù)行為的分析,判斷出用戶(hù)感興趣的內(nèi)容,把這部分內(nèi)容的標(biāo)簽,提煉、聚合后賦予至用戶(hù)身上。
在用戶(hù)的行為數(shù)據(jù)中,我們可以根據(jù)記錄用戶(hù)對(duì)不同內(nèi)容的不同互動(dòng)數(shù)據(jù),代表這個(gè)用戶(hù)對(duì)于當(dāng)前內(nèi)容的興趣傾向程度。例,用戶(hù)的瀏覽(時(shí)長(zhǎng)/頻率)、點(diǎn)擊、分享/收藏/關(guān)注等。
通過(guò)對(duì)不同行為進(jìn)行賦值,我們就可以通過(guò)分值的計(jì)算得出用戶(hù)最感興趣的一組標(biāo)簽。
在用戶(hù)的行為數(shù)據(jù)中,我們可以根據(jù)記錄用戶(hù)對(duì)不同內(nèi)容的不同互動(dòng)數(shù)據(jù),代表這個(gè)用戶(hù)對(duì)于當(dāng)前內(nèi)容的興趣傾向程度。例,用戶(hù)的瀏覽(時(shí)長(zhǎng)/頻率)、點(diǎn)擊、分享/收藏/關(guān)注等。
通過(guò)對(duì)不同行為進(jìn)行賦值,我們就可以通過(guò)分值的計(jì)算得出用戶(hù)最感興趣的一組標(biāo)簽。
用戶(hù)行為賦值計(jì)算表
完成對(duì)于關(guān)鍵行為的權(quán)重分值計(jì)算后,我們需要把用戶(hù)數(shù)據(jù)按照上面內(nèi)容標(biāo)簽化的方式打散成標(biāo)簽,并且賦予其中,關(guān)鍵行為的對(duì)應(yīng)分值。
標(biāo)簽賦值后優(yōu)先級(jí)排選邏輯
把標(biāo)簽與分值關(guān)聯(lián)并進(jìn)行計(jì)算。例,商品A的標(biāo)簽“商品產(chǎn)地”的值有“福建、廣東、、云南、浙江、河北”等,通過(guò)分值計(jì)算,找到分值最高的值作為該用戶(hù)此標(biāo)簽的值。
03 標(biāo)簽聚合
首先將數(shù)據(jù)分為幾個(gè)大類(lèi),每個(gè)大類(lèi)再進(jìn)行逐層細(xì)分。在構(gòu)建標(biāo)簽時(shí),只需要構(gòu)建最下層的標(biāo)簽,就能夠映射出上面兩級(jí)標(biāo)簽。
標(biāo)簽排序?yàn)橐患?jí)>二級(jí)>三級(jí),一級(jí)為上層標(biāo)簽,三級(jí)為最下層標(biāo)簽。
上層標(biāo)簽都是抽象的標(biāo)簽集合,一般沒(méi)有實(shí)用意義,只有統(tǒng)計(jì)意義。例,我們可以統(tǒng)計(jì)有用戶(hù)信息標(biāo)簽的用戶(hù)比例,但用戶(hù)有用戶(hù)信息標(biāo)簽,這本身對(duì)精準(zhǔn)的推薦沒(méi)有任何意義。
底層標(biāo)簽與上層標(biāo)簽的聚合關(guān)系
首先,對(duì)于底層標(biāo)簽有兩個(gè)要求:一個(gè)是每個(gè)標(biāo)簽只能表示一種含義,避免標(biāo)簽之間的重復(fù)和沖突,便于計(jì)算機(jī)處理;另一個(gè)是標(biāo)簽必須有一定的語(yǔ)義,方便相關(guān)人員理解每個(gè)標(biāo)簽的含義。
其次,標(biāo)簽的粒度也是需要注意的,標(biāo)簽粒度太粗會(huì)沒(méi)有區(qū)分度,粒度過(guò)細(xì)會(huì)導(dǎo)致標(biāo)簽體系太過(guò)復(fù)雜而不具有通用性。
下面這張圖是我訓(xùn)練營(yíng)當(dāng)中的一個(gè)標(biāo)簽庫(kù)資料,其中有很多標(biāo)簽都是比較獨(dú)特的標(biāo)簽:
那么此時(shí)該如何生產(chǎn)自己的標(biāo)簽。
這里不得不說(shuō),在標(biāo)簽體系當(dāng)中,對(duì)于推薦,精準(zhǔn)營(yíng)銷(xiāo)等應(yīng)用場(chǎng)景來(lái)講,最常見(jiàn),也是最常用的應(yīng)該是偏好類(lèi)標(biāo)簽,也就是用戶(hù)喜歡什么。
因此,我們加工的思路也就很直接了,通過(guò)用戶(hù)行為數(shù)據(jù)去進(jìn)行偏好標(biāo)簽的加工,這是業(yè)界最常用的標(biāo)簽生產(chǎn)方式。
比如用戶(hù)三級(jí)類(lèi)目偏好,通過(guò)用戶(hù)在平臺(tái)的瀏覽,收藏,關(guān)注,加購(gòu),下單等行為,完全可以反映出用戶(hù)的長(zhǎng)短期興趣偏好。
04 總結(jié)
推薦策略是解決互聯(lián)網(wǎng)海量信息資源出現(xiàn)信息過(guò)載問(wèn)題的方法,也是為了解決問(wèn)題、提高效率的架構(gòu)體系。在做推薦策略前先問(wèn)問(wèn)自己要解決哪方面的問(wèn)題,這個(gè)推薦策略能提高哪方面的效率,不要為了做推薦而做推薦,推薦策略更多的是平衡商業(yè)化和用戶(hù)體驗(yàn)的一個(gè)解決方案,要考慮自己業(yè)務(wù)整體情況去酌情調(diào)整。
本文由人人都是產(chǎn)品經(jīng)理作者【夏唬人】,微信公眾號(hào):【策略產(chǎn)品夏師傅】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!