電商搜索是如何保證搜索結(jié)果不偏離搜索意圖的?

0 評(píng)論 5769 瀏覽 56 收藏 12 分鐘
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

電商APP中,搜索模塊是如何把控搜索結(jié)果,以保證搜索結(jié)果符合用戶搜索意圖?這篇文章里,作者介紹并梳理了電商搜索中的類目預(yù)測(cè)和相關(guān)性控制模塊,一起來(lái)看看,或許可以幫助你更了解電商搜索。

一、引入

用戶在電商APP上進(jìn)行搜索時(shí),搜索引擎是如何把控返回的搜索結(jié)果是符合用戶搜索意圖的了?

電商搜索結(jié)果的相關(guān)性把控一般是通過(guò)兩種方法:一種是通過(guò)類目相關(guān)性來(lái)把控,一種是通過(guò)相關(guān)性控制模型來(lái)把控。但相關(guān)性把控的尺度是沒(méi)有標(biāo)準(zhǔn)答案的,在滿足平臺(tái)整體業(yè)務(wù)特性和用戶體驗(yàn)的前提下,可以基于用戶個(gè)性化的偏好進(jìn)行進(jìn)一步的相關(guān)性閾值控制。用戶個(gè)性化偏好的了解既可以通過(guò)系統(tǒng)的EE(探索與利用)機(jī)制,又可以通過(guò)調(diào)研問(wèn)卷的形式來(lái)讓用戶主動(dòng)反饋。

下面詳細(xì)介紹一下電商搜索中的類目預(yù)測(cè)和相關(guān)性控制模塊:

二、類目預(yù)測(cè)

1. 引入

不管是電商領(lǐng)域的搜索還是內(nèi)容社區(qū)領(lǐng)域的搜索,全都需要做類目預(yù)測(cè),電商和內(nèi)容社區(qū)都有自己專門的類目分類體系。類目預(yù)測(cè)有助于更好地計(jì)算檢索詞與物料之間的相關(guān) 性,并應(yīng)用到后續(xù)搜索類目導(dǎo)航功能中。

比如用戶在生鮮電商平臺(tái)叮咚買菜搜索“早點(diǎn)” 和“早餐”時(shí),結(jié)果如下圖所示,搜索引擎將“早點(diǎn)”“早餐”和牛奶、包子、燒賣、湯圓等類目關(guān)聯(lián)起來(lái),其實(shí)就是類目預(yù)測(cè)模塊將原始檢索詞與這些類目關(guān)聯(lián)起來(lái)。類目預(yù)測(cè)的另一個(gè)作用是在后續(xù)相關(guān)性排序環(huán)節(jié)中,將關(guān)聯(lián)度更高的類目物料排在前列。

如下圖所示, 能與“光明”匹配的類目有很多,比如牛奶、啤酒、大米和面包等,我們需要通過(guò)類目預(yù)測(cè)推測(cè)“光明”和哪一個(gè)類目的關(guān)聯(lián)度最高,以便在排序的時(shí)候進(jìn)行參考。模型預(yù)測(cè)出“光明”和牛奶類目的關(guān)聯(lián)度最高,所以在后續(xù)排序中就需要將牛奶排在前列。

2. 類目預(yù)測(cè)方法

常見(jiàn)的類目預(yù)測(cè)有三種方法。

1)基于人工規(guī)則

通過(guò)日志信息將熱門的檢索詞提取出來(lái),然后通過(guò)人工將這些檢索詞和相關(guān)類目匹配起來(lái),保證用戶下一次搜索時(shí)與檢索詞匹配的類目是正確的。

  • 優(yōu)點(diǎn):可以實(shí)現(xiàn)快速上線。
  • 缺點(diǎn):可拓展性較差,人工運(yùn)營(yíng)成本很高。 在搜索引擎搭建的初期可以使用此種方法。

2)基于用戶行為的數(shù)據(jù)統(tǒng)計(jì)

第二種方法是通過(guò)用戶的行為數(shù)據(jù)來(lái)分析得出每一個(gè)檢索詞對(duì)應(yīng)的類目。

首先統(tǒng)計(jì)每一個(gè)檢索詞被搜索后,用戶點(diǎn)擊并瀏覽的物料對(duì)應(yīng)的類目分布。用戶會(huì)主動(dòng)尋找搜索結(jié)果里面的正確答案,用戶點(diǎn)擊瀏覽的物料對(duì)應(yīng)的類目就是該檢索詞應(yīng)該匹配的類目。我們需要設(shè)計(jì)一個(gè)指標(biāo)閾值,指標(biāo)是單位時(shí)間內(nèi)檢索詞對(duì)應(yīng)單個(gè)類目的點(diǎn)擊量,點(diǎn)擊量大于閾值才代表該數(shù)據(jù)是可信的。

如下表所示,假設(shè)將點(diǎn)擊次數(shù)閾值設(shè)置為50次,則罐頭類目和檢索詞“早點(diǎn)”之間的相關(guān)度為0,其他類目與檢索詞的相關(guān)度可以用類目點(diǎn)擊次數(shù)除以總點(diǎn)擊次數(shù)來(lái)計(jì)算。

  • 優(yōu)點(diǎn):利用了用戶的歷史行為數(shù)據(jù),可以從數(shù)據(jù)中進(jìn)行學(xué)習(xí),具有一定的拓展性。
  • 缺點(diǎn):對(duì)于長(zhǎng)尾檢索詞的覆蓋度較低。

3)基于類目預(yù)測(cè)模型

上面介紹的兩種方法對(duì)于新檢索詞的類目預(yù)測(cè)覆蓋度都很低,拓展性也一般。實(shí)際工作中,我們需要構(gòu)建專門的類目預(yù)測(cè)模型。下面本書以電商領(lǐng)域的類目預(yù)測(cè)為例進(jìn)行說(shuō)明。

① 訓(xùn)練樣本構(gòu)建

構(gòu)建類目預(yù)測(cè)模型的第一步是構(gòu)建訓(xùn)練樣本,在電商領(lǐng)域,我們可以將商品標(biāo)題或用 戶歷史檢索詞與對(duì)應(yīng)的類目構(gòu)成一對(duì),一對(duì)代表一條訓(xùn)練樣本。如下表所示,構(gòu)建相應(yīng)的訓(xùn)練樣本,并進(jìn)行人工標(biāo)注和二次審核。類目預(yù)測(cè)模型是 一個(gè)多分類模型,一個(gè)檢索詞可能對(duì)應(yīng)多個(gè)類目。

② 預(yù)測(cè)結(jié)果的選擇

模型的輸入為檢索詞,輸出為可能相關(guān)的類目及對(duì)應(yīng)的概率。因?yàn)轭惸款A(yù)測(cè)模型是一個(gè)多分類模型,所以單個(gè)檢索詞可能會(huì)輸出多個(gè)相關(guān)類目。此時(shí)我們需要針對(duì)類目預(yù)測(cè)的相關(guān)性設(shè)置一個(gè)閾值,比如檢索詞與類目的預(yù)測(cè)相關(guān)性超過(guò) 0.5 才說(shuō)明兩者之間的相關(guān)性可信。這個(gè)閾值需要根據(jù)實(shí)際訓(xùn)練出的模型在測(cè)試集上的驗(yàn)證效果進(jìn)行確定。

③ 實(shí)際應(yīng)用

實(shí)際應(yīng)用時(shí),我們一般會(huì)將類目預(yù)測(cè)模型分為線上和線下兩部分。因?yàn)榫€上模型對(duì)實(shí)時(shí)性要求非常高,所以我們將一部分類目預(yù)測(cè)工作放在線下進(jìn)行。因?yàn)槊刻焖阉饕胬锩?0% 以上的搜索都是重復(fù)性搜索,針對(duì)這部分檢索詞可以提前進(jìn)行類目預(yù)測(cè),并通過(guò)人工方式對(duì)預(yù)估錯(cuò)誤的檢索詞進(jìn)行糾正,最終將類目預(yù)測(cè)結(jié)果提前存儲(chǔ)到 Redis 內(nèi)存數(shù)據(jù)庫(kù)中,線上使用時(shí)直接查詢即可。針對(duì)另外 20% 的長(zhǎng)尾檢索詞,可進(jìn)行線上實(shí)時(shí)預(yù)測(cè)。通 過(guò)此種方式可以大大減輕線上的系統(tǒng)壓力。

  • 優(yōu)點(diǎn):泛化性強(qiáng),對(duì)于長(zhǎng)尾檢索詞,類目預(yù)測(cè)的準(zhǔn)確率很高。
  • 缺點(diǎn):線上模型耗時(shí)較多,需要設(shè)計(jì)合理的系統(tǒng)架構(gòu)。

三、相關(guān)性控制

除了上述介紹的類目預(yù)測(cè)模型,在部分召回分支里比如語(yǔ)義相關(guān)性召回策略里,針對(duì)召回的結(jié)果還會(huì)單獨(dú)再過(guò)一個(gè)相關(guān)性控制模型,去評(píng)估搜索結(jié)果和Query之間的相關(guān)性,針對(duì)相關(guān)性較弱的搜索結(jié)果進(jìn)行過(guò)濾。

因?yàn)檎Z(yǔ)義相關(guān)性召回從語(yǔ)義層面評(píng)估Query和文檔的相關(guān)性,很多召回的物料在文本層面和檢索詞不具備任何相關(guān)性,所以實(shí)際應(yīng)用時(shí)會(huì)出現(xiàn)相應(yīng)的用戶體驗(yàn)問(wèn)題。

為了盡量減少線上出現(xiàn)的用戶體驗(yàn)問(wèn)題,系統(tǒng)里就需要單獨(dú)設(shè)計(jì)一個(gè)相關(guān)性控制模型。相關(guān)性控制模型是一個(gè)二分類模型,專門針對(duì)向量召回的物料進(jìn)行判斷,評(píng)估其和檢索詞是否相關(guān)。

1. 相關(guān)性控制模型與語(yǔ)義相關(guān)性召回模型的差異

第一處是語(yǔ)義相關(guān)性召回模型輸出的是檢索詞與文檔的相似度,是一個(gè)具體數(shù)值,而不是類別。相關(guān)性控制模型輸出的是類別,即相關(guān)或不相關(guān)。

第二處是語(yǔ)義相關(guān)性召回模型訓(xùn)練時(shí)使用的核心數(shù)據(jù)來(lái)自線上點(diǎn)擊曝光數(shù)據(jù),而相關(guān)性控制模型訓(xùn)練時(shí)使用的數(shù)據(jù)主要是人工標(biāo)注數(shù)據(jù),需要確保檢索詞與文檔的嚴(yán)格相關(guān)性。

2. 工業(yè)界實(shí)際應(yīng)用

部分公司將相關(guān)性控制模型和語(yǔ)義相關(guān)性召回模型所需完成的任務(wù)合二為一,全部由語(yǔ)義相關(guān)性召回模型完成。

首先,對(duì)語(yǔ)義相關(guān)性召回模型使用的訓(xùn)練樣本進(jìn)行人工審核, 確保訓(xùn)練樣本的嚴(yán)格相關(guān)性。其次,系統(tǒng)對(duì)語(yǔ)義相關(guān)性召回模型最終產(chǎn)出的相似度設(shè)置一個(gè)較高的閾值,保證返回的物料相關(guān)性很高。

模型拆分以后各端可以專注于優(yōu)化自己的核心目標(biāo),模型融合在一起后既要保證高相關(guān)性,又要保證召回較多的物料,這兩個(gè)優(yōu)化目標(biāo)在某種層面上是相悖的。具體是否進(jìn)行拆分,視公司搜索引擎的發(fā)展階段和實(shí)際業(yè)務(wù)量 而定,目前頭部互聯(lián)網(wǎng)公司都將這兩個(gè)模型拆分開(kāi),分別進(jìn)行優(yōu)化。

四、用戶對(duì)于“精準(zhǔn)度“的個(gè)性化偏好

之前提到過(guò),不同用戶對(duì)于“精準(zhǔn)度”的偏好是不一樣的,有些用戶希望搜索結(jié)果就是和自己搜索詞強(qiáng)關(guān)聯(lián)的結(jié)果,有些用戶可以接受搜索結(jié)果中出現(xiàn)一些沒(méi)有那些精準(zhǔn)的結(jié)果。

如何去了解不同用戶的偏好進(jìn)而去更好的滿足用戶的不同需求?一種方式可以通過(guò)系統(tǒng)探索,去試探用戶的興趣。另一種就是像淘寶這樣,可以通過(guò)調(diào)研問(wèn)卷,讓用戶來(lái)主動(dòng)反饋,最終基于用戶的反饋來(lái)把控搜索結(jié)果的精準(zhǔn)度。

本篇文章節(jié)選自我的新書《搜廣推策略產(chǎn)品經(jīng)理-互聯(lián)網(wǎng)大廠搜索+廣告+推薦案例》~

專欄作家

King James,公眾號(hào):KingJames講策略,人人都是產(chǎn)品經(jīng)理專欄作家。算法出身的搜廣推策略產(chǎn)品專家。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
16415人已学习12篇文章
本专题的文章分享了对账体系的设计思路。
专题
20625人已学习15篇文章
商品管理系统属于电商产品中最基础、最核心的系统,是支撑整个电商产品的核心。本专题的文章提供了商品管理设计指南。
专题
12940人已学习12篇文章
产品立项,对于产品来说是其生命周期中最基础的和最重要的阶段。产品立项都有哪些主要工作?本专题的文章分享了产品立项指南。
专题
12507人已学习15篇文章
互联网医疗是医疗行业与互联网的综合应用,其以互联网及相关技术为载体和支撑,开展线下传统或线上衍生的医疗健康服务。本专题的文章分享了对互联网医疗的分析和见解。
专题
15820人已学习12篇文章
CDP,即客户数据平台,是企业用来集中管理和整合客户数据的工具。本专题的文章分享了什么是CDP和如何搭建CDP平台。
专题
11838人已学习12篇文章
增长这个话题,是互联网产品在成长过程中绕不过的问题。本专题的文章分享了产品增长指南。