推薦算法:Match與Rank模型的交織配合

2 評論 13396 瀏覽 88 收藏 5 分鐘

?電商環(huán)境下的個性化推薦,主要包含三大維度的模塊,針對用戶的候選召回(Match),候選商品的精排(Rank),以及線上的策略調控(Re-rank)。而Match(召回)和Rank(排序)是推薦流程非常關鍵的兩步。

一、Match

Match即有效和豐富的召回,從全量商品(還包括feed和視頻等)集合中根據(jù)用戶行為和屬性信息觸發(fā)盡可能多正確的結果,并將結果返回給Rank。

推薦不同與搜索,在沒有明確Query觸達的情況下,用戶的Match召回就顯得尤為重要,希望相關性的信息盡可能的豐富。

因此Match面對的是整個商品庫集合,需要保留盡可能多的相關結果,剔除相關性較弱的結果,降低對后面鏈路的壓力。

由此需綜合利用多種信息,比如用戶信息(年齡、性能、購買力等)、類目信息、店鋪信息、文本信息等。從而既保證高召回率,又要保證高的準確率。Match結果的好壞,對整個結果有重要的影響。

Match召回策略主要包含兩大類:基于內(nèi)容匹配的召回和基于協(xié)同過濾的召回。

前者主要是基于用戶的畫像信息和商品的內(nèi)容信息進行匹配召回。這種方式召回率較高,但精度較差,比較適用于冷啟動的語義環(huán)境。

后者主要是基于用戶和商品之間的行為矩陣,通過一系列策略得到用戶和候選商品之間的相關性;這種方式精度較高,但存在一定程度的冷啟動問題。協(xié)同過濾是當前推薦依賴的基礎策略。

二、Rank

Rank即精排,通過一個準確的預估模型對Match階段海選的商品進行精準打分,并根據(jù)打分結果進行排序截斷,決定最終向用戶展示的結果順序。

Rank模型兩大要素為特征抽取和打分模型學習訓練。

特征抽取的第一步也是最為重要的一步就是清洗日志,曝光日志可以通過日志埋點進行過濾,并結合更準確的搜索、點擊、收藏等用戶行為日志,進行User_id和Item_id維度的聚合,最終將兩份日志Join在一起構造為用戶特征樣本。

特征抽取除了基本屬性特征,如user_id,item_id,user的年齡性別等人群特征,有小時級或分鐘級回流的準實時反饋特征,還包括user端和item端雙向交叉特征,如user在不同類目下的偏好程度,item在不同性別年齡購買力人群下的ctr等。

除了用戶實時特征外,還會進行離線模型的日志及特征的接入、預處理以及離線特征的統(tǒng)計工作,作為實時特征的補充,這里處理長期興趣的統(tǒng)計類特征的準備以及各種平滑過濾邏輯,在數(shù)據(jù)側提供了保障。

打分模型主要分為CTR與CVR預估模型,在展示商品前,結合用戶歷史行為&商品&場景信息,預估展示商品之后用戶是否會點,或點擊之后是否會購買,從而在Rank時有不同的CTR與CVR傾向。

目前,成熟的排序模型都是多維度分數(shù)融合排序,獲取多個維度的預估分,包括CTR預估,CVR預估,筆單價和商品毛利潤,根據(jù)業(yè)務指標進行調控,計算最終的RankScore。

三、End

推薦算法是Match與Rank的聯(lián)動協(xié)同。當用戶Match模型,召回的內(nèi)容較少時,Rank排序則無較大的發(fā)揮空間。當用戶的行為豐富,更容易獲取召回了,Rank排序則能發(fā)揮更大的效用。

#專欄作家#

Link,微信公眾號:從0到1(aboutlink),人人都是產(chǎn)品經(jīng)理專欄作家。美團點評產(chǎn)品經(jīng)理,負責億級用戶平臺,專注于O2O,用戶產(chǎn)品設計,數(shù)據(jù)分析等領域。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載。

題圖來自unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 這也太空洞的吧

    來自廣東 回復
  2. 看不懂能說嗎

    來自湖北 回復