廣告系列:召回與排序

3 評(píng)論 18591 瀏覽 70 收藏 13 分鐘

編輯導(dǎo)語(yǔ):如今很多企業(yè)會(huì)使用實(shí)時(shí)競(jìng)價(jià)的方式進(jìn)行廣告投放,在推薦系統(tǒng)中會(huì)有召回和排序兩個(gè)環(huán)節(jié),根據(jù)用戶和商品的部分特征進(jìn)行快速的排序,做出個(gè)性化推薦;本文作者分享了關(guān)于廣告中的召回與排序的方式,我們一起來(lái)了解一下。

實(shí)時(shí)競(jìng)價(jià)廣告整體鏈路中,媒體側(cè)發(fā)起請(qǐng)求,經(jīng)ADX發(fā)向各DSP,DSP在對(duì)流量評(píng)估的基礎(chǔ)上返回廣告參與競(jìng)價(jià),ADX比價(jià)后返回勝出廣告,媒體展示并上報(bào)完成一次廣告全流程。

其中DSP在接收到廣告請(qǐng)求后,需要在100-200ms內(nèi)找出符合的廣告返回給ADX,廣告庫(kù)中的候選數(shù)量龐大,一般在幾十萬(wàn)-幾百萬(wàn)之間,要在極短時(shí)間內(nèi)完成對(duì)海量廣告的打分評(píng)估,業(yè)界普遍的做法與推薦系統(tǒng)類似分為兩個(gè)主要環(huán)節(jié):召回+排序。

一、召回

召回的目的在于減少候選的數(shù)量(盡量控制在1000以內(nèi)),方便后續(xù)排序環(huán)節(jié)使用復(fù)雜模型精準(zhǔn)排序;因?yàn)樵诙虝r(shí)間內(nèi)評(píng)估海量候選,所以召回的關(guān)鍵點(diǎn)是個(gè)快字,受限與此與排序相比,召回的算法模型相對(duì)簡(jiǎn)單,使用的特征比較少。

業(yè)界普遍采用的方式是多路召回,即從多個(gè)維度出發(fā)在海量庫(kù)里把相關(guān)度高的候選盡可能找出來(lái)。

多路同時(shí)召回是出于多方面的考慮:

  • 多樣性,從不同維度出發(fā)去找到相關(guān)的候選;
  • 魯棒性,即使一路召回出現(xiàn)問(wèn)題,其他召回通路也會(huì)正常運(yùn)行不至于阻塞主流程;
  • 可解釋與靈活性,每一路從單獨(dú)維度出發(fā)可以很好解釋召回的邏輯,如果效果不理想調(diào)整起來(lái)復(fù)雜度低更加靈活。

在某一路召回時(shí)選好方向確定對(duì)應(yīng)的打分函數(shù),之后進(jìn)行打分、排序、截?cái)嗾倩豻opN,各路召回之間彼此獨(dú)立,勝出的候選之間不具有可比性。

召回主要從用戶(U)、上下文(C)、搜索詞(Q)、廣告(A)幾個(gè)大方向出發(fā),細(xì)化維度可以結(jié)合實(shí)際業(yè)務(wù)場(chǎng)景,可以基于上下文標(biāo)題/描述/分類/標(biāo)簽/圖片、用戶基礎(chǔ)統(tǒng)計(jì)信息/興趣標(biāo)簽/歷史行為、檢索詞、基于物品的協(xié)同過(guò)濾,處理的信息是多模態(tài)的包括文字、圖片、視頻等。

具體召回匹配時(shí)有兩種思路:

  • 基于標(biāo)簽/關(guān)鍵詞的文本硬匹配,如廣告定向中的地域、性別,要么匹配,要么不匹配,擴(kuò)展性及靈活度差一些;
  • 基于向量的語(yǔ)義軟匹配。選擇有效的原始特征進(jìn)行embedding嵌入向量空間,通過(guò)雙塔模型學(xué)習(xí)獲得用戶、廣告的向量表示,利用點(diǎn)積、余弦相似度或者歐氏距離等方式計(jì)算向量相關(guān)度,類似Youtube的推薦雙塔和微軟的DSSM;既可以改變閾值調(diào)整召回?cái)?shù)量又能滿足性能需求,是當(dāng)前召回的主流形式。

召回不像排序階段直接影響業(yè)務(wù)指標(biāo),經(jīng)過(guò)粗排精排等環(huán)節(jié)作用后對(duì)最終結(jié)果的影響已經(jīng)很小,對(duì)質(zhì)量衡量難度相對(duì)較大,可以從兩個(gè)方面出發(fā)嘗試評(píng)估:

  • 獨(dú)特性,某路召回結(jié)果的不可替代或者與其他通路的重復(fù)度,重復(fù)度越高該路召回的價(jià)值越小;
  • 轉(zhuǎn)化效果,召回結(jié)果的后續(xù)表現(xiàn),如精排后的排名或者被曝光后用戶是否點(diǎn)擊,效果越好價(jià)值越高。

二、排序

如果說(shuō)召回是提供可能性,則排序是提供確定性:把最合適的候選找出來(lái)推給用戶。

排序細(xì)化可以分為粗排、精排、重排。

  • 粗排是召回階段返回的候選數(shù)量還是太多,精排直接處理性能上不能滿足,粗排用簡(jiǎn)單模型再做一次過(guò)濾減少數(shù)量,是個(gè)可選環(huán)節(jié);
  • 重排則是出于業(yè)務(wù)考慮,對(duì)精排后的結(jié)果進(jìn)行處理:多樣性、頻控、類別控制、特定結(jié)果提權(quán)等;
  • 精排是整個(gè)排序的關(guān)鍵,是各路模型的主戰(zhàn)場(chǎng),也是我們討論的主角。

與召回相比,排序面對(duì)的候選在數(shù)量上急劇減少:只需要處理在召回階段勝出的候選“如果整個(gè)創(chuàng)意庫(kù)的量級(jí)在千級(jí)左右(如開屏廣告/商店原生等)則可以全部召回直接用于排序”;這為排序的發(fā)揮奠定了很好的基礎(chǔ):使用更多的特征與特征組合、復(fù)雜的模型對(duì)多路召回的結(jié)果統(tǒng)一評(píng)判打分、排序、截?cái)鄑opN輸出。

為了更細(xì)致的刻畫與擬合實(shí)際場(chǎng)景,排序階段對(duì)模型的要求不斷提高,伴隨著技術(shù)的發(fā)展,從線性到非線性、從原始特征到低階特征組合、高階特征組合,到低高階并存。

如果說(shuō)召回是基于表示的學(xué)習(xí),其重點(diǎn)在學(xué)習(xí)用戶和廣告的向量表征,那么排序則是基于特征與特征組合的學(xué)習(xí);尤其是高階特征組合,整個(gè)排序模型發(fā)展的主方向就是對(duì)有效特征及特征組合的發(fā)現(xiàn)與使用。

召回與排序?qū)φ麄€(gè)廣告有重要影響,其結(jié)果的好壞很大程度上決定了廣告的質(zhì)量和變現(xiàn)效果;它是廣告鏈路上的一顆明珠,值得花精力精雕細(xì)琢。

上面介紹了召回與排序在整個(gè)廣告鏈路中所屬環(huán)節(jié)及各自作用,接下來(lái)主要介紹二者的異同及目標(biāo)一致性問(wèn)題。

相同點(diǎn):

召回與排序都是通過(guò)特征選取、模型構(gòu)造,對(duì)候選集進(jìn)行打分/排序/截?cái)?,將不符合的候選過(guò)濾,符合條件的候選進(jìn)入下一環(huán)節(jié),總體來(lái)講召回排序環(huán)節(jié)選出了合適的候選。

差異點(diǎn):

1)數(shù)據(jù)環(huán)境的差異

業(yè)界有句話,數(shù)據(jù)/特征決定了模型的上限,模型只是不斷的去逼近它;因?yàn)槟P蛯W(xué)習(xí)的就是數(shù)據(jù)的內(nèi)在規(guī)律和分布結(jié)構(gòu),為保證上線效果,訓(xùn)練數(shù)據(jù)要盡可能接近線上數(shù)據(jù)。

召回階段處理的是全量候選,魚龍混雜,其中絕大多數(shù)都與當(dāng)前請(qǐng)求不相關(guān);排序階段面對(duì)的是已經(jīng)通過(guò)了一次篩選,相關(guān)度已經(jīng)有了很好的保障。

基于二者環(huán)境的差異,在訓(xùn)練數(shù)據(jù)/樣本的選擇上需要注意,正樣本的選擇相對(duì)明確,重點(diǎn)在于負(fù)樣本的選??;對(duì)于排序而言,曝光未點(diǎn)擊的數(shù)據(jù)與線上環(huán)境基本接近(完全一致需要選取召回勝出的候選集,但此時(shí)的數(shù)據(jù)沒(méi)有標(biāo)記);對(duì)于召回而言,一種有效的做法是通過(guò)全局隨機(jī)抽樣來(lái)產(chǎn)生不相關(guān)的負(fù)樣本。

2)模型處理的差異

針對(duì)新的影響因素/特征,召回出于多樣性和可解釋等多方面考慮,一般會(huì)新增一路召回,導(dǎo)致了各路之間彼此獨(dú)立,結(jié)果不可比。

排序是將新因素作為特征融入現(xiàn)有模型進(jìn)行相關(guān)的特這組合交互,所有候選按照統(tǒng)一的標(biāo)準(zhǔn)打分評(píng)估。

召回與排序目標(biāo)一致性:

推薦和廣告在很多方面有相似性,包括召回和排序面對(duì)的場(chǎng)景、處理思路、技術(shù)和實(shí)現(xiàn),前面文章中提到廣告對(duì)召回排序的處理借鑒推薦系統(tǒng)的做法;在一定程度上包含在目標(biāo)的處理上,其實(shí)二者之間是有本質(zhì)區(qū)別的。

推薦:推薦系統(tǒng)產(chǎn)生的背景是因?yàn)樯唐?內(nèi)容量級(jí)太大,用戶想找到感興趣的內(nèi)容需要花費(fèi)一定成本/時(shí)間,基于此提出推薦系統(tǒng)幫助用戶快速找到感興趣的內(nèi)容,在相關(guān)性的基礎(chǔ)上需要同時(shí)考慮內(nèi)容的多樣性、新穎和時(shí)效性;不能只根據(jù)用戶行為歷史生成推薦內(nèi)容,否則容易造成用戶審美疲勞,所以既要利用已知又要探索新的內(nèi)容。

從根本上講屬于用戶體驗(yàn)問(wèn)題,服務(wù)于用戶滿意度,最終提升用戶活躍和留存,所以推薦的整體目標(biāo)是:把用戶喜歡的東西推薦給用戶。

廣告:廣告是從商業(yè)化角度出發(fā),為了變現(xiàn)獲取收益,與推薦相比廣告的目標(biāo)/訴求更加純粹:收益最大化。在實(shí)時(shí)競(jìng)價(jià)廣告中拍賣的商品是曝光,所以具化為曝光收益最大化。實(shí)際場(chǎng)景中考慮了收益最大化以外的因素一般都是廣告和其他業(yè)務(wù)/場(chǎng)景在折中妥協(xié)后的結(jié)果(搜索場(chǎng)景的相關(guān)性/展示場(chǎng)景的類別/次數(shù)限制等),換個(gè)角度看也是為了廣告走的更長(zhǎng)遠(yuǎn)。

基于上述差異二者在召回與排序的目標(biāo)和具體指標(biāo)上會(huì)有所不同。

推薦在兩階段的總體目標(biāo)基本一致:找出來(lái)用戶喜歡的/相關(guān)的,具體操作上會(huì)有細(xì)微差別,召回一般用雙塔衡量相關(guān)度,排序根據(jù)實(shí)際場(chǎng)景指標(biāo)有所調(diào)整如點(diǎn)擊率/觀看時(shí)長(zhǎng)/分享等。

廣告兩階段的目標(biāo)是基本分開的:

  • 召回:在全部候選中召回相關(guān)的候選集;
  • 排序:排序?qū)ψ罱K結(jié)果直接產(chǎn)生影響,因此從商業(yè)化角度出發(fā)將收益最大的候選推出去。

召回與排序是前后相連的兩個(gè)環(huán)節(jié),如果二者目標(biāo)不一致會(huì)影響商業(yè)化效率:召回的優(yōu)質(zhì)候選在排序階段的排名可能比較靠后,排序階段的優(yōu)質(zhì)候選在召回環(huán)節(jié)被過(guò)濾掉掉。

百度在莫比烏斯的論文中也提到:召回階段勝出相關(guān)性高的候選因?yàn)閏pm不夠高最終推出不去無(wú)法曝光。

從廣告的根本目標(biāo)出發(fā),為有效解決上述耗損問(wèn)題,百度提出把排序的目標(biāo)前移至召回階段:召回就需要考慮商業(yè)化目標(biāo)(ECPM),這對(duì)召回模型的復(fù)雜度提出了很高的要求;因?yàn)檎倩貓?chǎng)景的特殊性需要同時(shí)兼顧性能和效果兩個(gè)方面。

關(guān)于這個(gè)點(diǎn),阿里在深度樹(TDM)的論文中提供了一種解決性能問(wèn)題的方向:利用樹結(jié)構(gòu)進(jìn)行高效的全局檢索,這為解放召回階段使用復(fù)雜模型點(diǎn)燃了星星之火,與百度提出的排序目標(biāo)前移堪稱廣告的兩大福音。

下一篇主要介紹召回排序在具體處理時(shí)采用的思路和方法。

 

本文由 @知乎-莫菲克 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 如果整體數(shù)據(jù)不多的情況下,是不是召回-排序-過(guò)濾就可以了? 不用粗排-過(guò)濾-精排?

    來(lái)自中國(guó) 回復(fù)
  2. 不是應(yīng)該adx下發(fā)給廣告后dsp做競(jìng)價(jià)策略輸出給媒體側(cè)嗎。。。

    來(lái)自四川 回復(fù)
  3. 不是應(yīng)該adx下發(fā)給廣告后dsp做競(jìng)價(jià)策略輸出給媒體側(cè)嗎

    來(lái)自四川 回復(fù)