用戶人群精推基礎(chǔ)算法
編輯導(dǎo)語:隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的APP開始進(jìn)行精準(zhǔn)化的算法推薦,算法的應(yīng)用越來越普及,但算法有利也有弊。近期,國(guó)家便對(duì)算法進(jìn)行了整治,但綜合來說,算法的精準(zhǔn)推送利大于弊。本文就幾種基礎(chǔ)的算法進(jìn)行了總結(jié)與思考,與大家一同探討。
隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的App開始進(jìn)行精準(zhǔn)化的推薦。隨之而來的則是千人千面,算法的應(yīng)用以及維度的分析越來越精確。是好事也非好事,雖然增加了沉浸式的體驗(yàn),但在娛樂化的平臺(tái)則物極必反,自發(fā)用戶高質(zhì)量的內(nèi)容減少,隨之而來的則是無趣及用戶體驗(yàn)的疲勞。
但是綜合來講精準(zhǔn)推薦利大于弊,它是很好的增加用戶粘性的一種方式,今天只是說幾種最基礎(chǔ)的算法,對(duì)于精準(zhǔn)推薦的利弊,在接下來的文章會(huì)進(jìn)行詳細(xì)的分析。以下僅個(gè)人觀點(diǎn),不喜勿噴。謝謝大家。
我們先以標(biāo)簽為例來進(jìn)行分析。
一、算法的基礎(chǔ)
Apriori算法用于挖掘出數(shù)據(jù)關(guān)聯(lián)規(guī)則的基礎(chǔ)算法,它用來找出數(shù)據(jù)值中頻繁出現(xiàn)的數(shù)據(jù)集合,找出這些集合的模式有助于我們做一些決策。
比如在常見的超市購物數(shù)據(jù)集,或者電商的網(wǎng)購數(shù)據(jù)集中,如果我們找到了頻繁出現(xiàn)的數(shù)據(jù)集,那么對(duì)于超市,我們可以優(yōu)化產(chǎn)品的位置擺放,對(duì)于電商,我們可以優(yōu)化商品所在的倉庫位置,達(dá)到節(jié)約成本,增加經(jīng)濟(jì)效益的目的。
同樣一個(gè)用戶總瀏覽相同的形式的內(nèi)容,那么你就更加精確發(fā)現(xiàn)其興趣點(diǎn),及其其他相關(guān)產(chǎn)品進(jìn)行推薦。
Aprior算法是一個(gè)非常經(jīng)典的挖掘算法,很多算法都是基于Aprior算法而產(chǎn)生的,包括FP-Tree、GSP、CBA等。這些算法利用了Aprior算法的思想,但是對(duì)算法做了改進(jìn)。生命的真諦不就是在于不斷進(jìn)步?
二、FP Tree算法
這個(gè)算法是我在剛進(jìn)行算法精推時(shí)的首選,結(jié)構(gòu)比較簡(jiǎn)單,適用于剛剛搭建的階段。
這里對(duì)FP Tree算法流程做一個(gè)歸納。FP Tree算法包括以下幾步:
1)首先掃描數(shù)據(jù),得到所有頻繁1項(xiàng)集的的計(jì)數(shù)。然后刪除支持度低于閾值的項(xiàng),將1項(xiàng)頻繁集放入項(xiàng)頭表,并按照支持度降序排列。項(xiàng)頭表支持度必須大于百分之20才可進(jìn)行記錄其中。
2)其次將原始數(shù)據(jù)剔除支持度低于百分之20的數(shù)值,重新得到數(shù)據(jù)集。
3)讀入排序后的數(shù)據(jù)集,插入FP樹,插入時(shí)按照排序后的順序,插入FP樹中,排序靠前的節(jié)點(diǎn)是祖先節(jié)點(diǎn),而靠后的是子孫節(jié)點(diǎn)。如果有共用的祖先,則對(duì)應(yīng)的公用祖先節(jié)點(diǎn)計(jì)數(shù)加1。插入后,如果有新節(jié)點(diǎn)出現(xiàn),則項(xiàng)頭表對(duì)應(yīng)的節(jié)點(diǎn)會(huì)通過節(jié)點(diǎn)鏈表鏈接上新節(jié)點(diǎn)。直到所有的數(shù)據(jù)都插入到FP樹后,F(xiàn)P樹的建立完成。
4)從項(xiàng)頭表的底部項(xiàng)依次向上找到項(xiàng)頭表項(xiàng)對(duì)應(yīng)的條件模式基遞。從條件模式基遞歸挖掘得到項(xiàng)頭表項(xiàng)的頻繁項(xiàng)集。
5)如果不限制頻繁項(xiàng)集的項(xiàng)數(shù),則返回步驟4所有的頻繁項(xiàng)集,否則只返回滿足項(xiàng)數(shù)要求的頻繁項(xiàng)集。
這樣有相同的因素出現(xiàn)時(shí),我們可以簡(jiǎn)單的理解為其相關(guān)性,這些相關(guān)性我們可以把標(biāo)簽當(dāng)作一個(gè)值來進(jìn)行系統(tǒng)的初期分配。
同樣還有其他的算法GSP,?CBA、CBA算法+關(guān)聯(lián)Apriori算法、
機(jī)器學(xué)習(xí)-規(guī)則與關(guān)聯(lián)規(guī)則模型Apriori、FP-Growth等有待發(fā)掘。
三、其他形式
當(dāng)然算法不能只關(guān)注標(biāo)簽的應(yīng)用。同樣以某短視頻為例。其搜索的算法還包含,當(dāng)下熱點(diǎn)、用戶的瀏覽記錄、關(guān)注的事物、以及標(biāo)簽、搜索熱詞等等。這些均需算法進(jìn)行推動(dòng)才可以做到千人千面,達(dá)到商業(yè)價(jià)值。把商業(yè)價(jià)值做到無感又大的流量曝光才是王道。
這是我前端時(shí)間對(duì)標(biāo)簽化算法的思考進(jìn)行一個(gè)記錄、能力不高請(qǐng)多擔(dān)待。如有大神還是蠻樂意去學(xué)習(xí)的。
作者:苗小豐
本文由 @汪仔5338 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!