電商系統(tǒng)搜索場景推薦的千人千面——語料庫建立
編輯導(dǎo)讀:搜索是產(chǎn)品最常見的功能,尤其是電商產(chǎn)品,利用搜索功能和場景推薦功能,達(dá)成千人千面的效果。本文作者以語料庫的建立為例子展開分析,希望對(duì)你有幫助。
搜索和推薦場景的聯(lián)動(dòng)行為,千人千面的用戶興趣;
01 搜索步驟
用戶輸入搜索關(guān)鍵詞,搜索系統(tǒng)根據(jù)輸入信息,篩選出用戶可能喜歡的內(nèi)容,同時(shí)按照某種重要性進(jìn)行排序并展示。簡單而言,搜索可以分為三步:
- 對(duì)用戶輸入搜索詞的解讀
- 根據(jù)搜索詞對(duì)內(nèi)容篩選
- 對(duì)篩選后的結(jié)果集排序并展現(xiàn),并且根據(jù)用戶反饋進(jìn)入新的搜索服務(wù)
1. 搜索前行為記錄
- 條件:對(duì)用戶當(dāng)前需求沒有顯式信息
- 定位:以推薦為主
- 典型產(chǎn)品:搜索底紋、搜索發(fā)現(xiàn) 、歷史搜索詞、熱門搜索詞
- 搜索物料:歷史搜索詞、短期、長期商品交互(點(diǎn)擊、加購、收藏、購買)、其他人的搜索及站內(nèi)行為
2. 搜索中行為記錄
- 條件:需求部分已知
- 定位:輔助查詢輸入
- 典型產(chǎn)品:查詢智能補(bǔ)全(SUG) /搜索聯(lián)想
- 搜索物料:短期、長期商品交互(點(diǎn)擊、加購、收藏、購買)、其他人的搜索及站內(nèi)行為
3. 搜索后的行為結(jié)果
- 條件: 用戶完成搜索, 已獲取結(jié)果列表 ,排序及展示結(jié)果頁
- 定位: 輔助用戶修正結(jié)果或重新查詢
- 典型產(chǎn)品: 相關(guān)搜索、篩選、泛詞引導(dǎo)/錦囊、搜索糾錯(cuò),搜索確認(rèn)、搜索排序
- 搜索物料:搜索詞下類目重要屬性,短期、長期商品交互(點(diǎn)擊、加購、收藏、購買)、其他人的搜索及站內(nèi)行為
02 動(dòng)態(tài)流通語料庫
語料庫的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual),按照語料的采集單位,語料庫又可以分為語篇的、語句的、短語的;雙語和多語語料庫按照語料的組織形式,還可以分為平行(對(duì)齊)語料庫和比較語料庫,統(tǒng)稱為的語料構(gòu)成譯文關(guān)系。
- 語料:從單語種到多語種
- 數(shù)量:從百萬級(jí)到千萬級(jí)再到億級(jí)和萬億級(jí)
- 加工:從詞法級(jí)到句法級(jí)再到語義和語用級(jí)
- 文本:從抽樣到全文
- 特點(diǎn):動(dòng)態(tài)性,不確定一個(gè)固定的庫容量(例如:把庫容量目標(biāo)確定為數(shù)百萬字,上千萬字,數(shù)千萬字,數(shù)億字等)
不確定一個(gè)固定的選擇文本的時(shí)間段(例如:確定為49年-82年,80年-90年,90年-95年語料等);
不確定一個(gè)固定的文本選擇范圍或應(yīng)用領(lǐng)域(例如:確定為只收現(xiàn)代漢語文學(xué)語料,或新聞?wù)Z料,或科技語料或中小學(xué)生語料等,從而建立一些專門的語料庫);
不確定一些固定的文本抽樣對(duì)象(例如三只松鼠,新能源電池,蒙牛酸奶,等)。
定時(shí)抽取的語料庫:根據(jù)大眾媒體的傳播情況,依據(jù)一定的原則來動(dòng)態(tài)抽??;以觀察和測(cè)量到流通度的變化情況,可以追蹤到語言成分的產(chǎn)生,成長和消亡。
03 搜索的精準(zhǔn)匹配推薦與記錄
搜索詞充當(dāng)了用戶與搜索工具之間的重要溝通載體,借助關(guān)鍵詞實(shí)現(xiàn)用戶自我意識(shí)與搜索引擎之間的交流,形成了一個(gè)意識(shí)產(chǎn)生、關(guān)鍵詞轉(zhuǎn)化、搜索、信息獲取、動(dòng)機(jī)滿足的信息閉環(huán)。
當(dāng)然還有很多因素也會(huì)去影響這個(gè)閉環(huán),如用戶(歷史行為,瀏覽偏好,性別、年齡等)、地域、天氣,一個(gè)宏觀、長周期的鏈路等。
根據(jù)搜索的過程,可以拆解用戶的搜索流程如下:搜索入口-搜索觸發(fā)-內(nèi)容輸入-點(diǎn)擊搜索-反饋結(jié)果。我們從這個(gè)流程的各個(gè)環(huán)節(jié)上來看四大電商app(京東、天貓、手淘、拼多多)的搜索功能,進(jìn)行對(duì)比分析。
電商搜索為例,以用戶搜索過程中輸入搜索詞(點(diǎn)擊“搜索“按鈕到按下”回車“之間發(fā)生的事)的過程為切入點(diǎn),結(jié)合產(chǎn)品及技術(shù)方案展開,結(jié)合相關(guān)搜索詞功能進(jìn)行論述;
從而形成分詞:長尾詞,屬性詞,精準(zhǔn)大詞,短詞、單詞、雙詞。
劃分等級(jí):搜索熱度、點(diǎn)擊率、頻率、競爭度、時(shí)間段落。
04 搜索詞自動(dòng)索引推薦產(chǎn)生聯(lián)想效應(yīng)
關(guān)鍵詞匹配/補(bǔ)全/聯(lián)想/糾錯(cuò)的作用主要?jiǎng)澐譃椋阂龑?dǎo)、糾錯(cuò)和高效。
通過統(tǒng)計(jì)再計(jì)算,用戶在第一次查詢中得到預(yù)期搜索結(jié)果的概率非常低,所以需要引導(dǎo)查詢自動(dòng)建議可以減少用戶搜索的工作量,并通過數(shù)據(jù)挖掘(群體行為和智慧)來給出高頻恰當(dāng)?shù)乃阉鹘ㄗh,語料庫的詞匹配與聯(lián)動(dòng)效應(yīng),在不斷的記錄分詞中構(gòu)造出相對(duì)完整的詞庫。
搜索時(shí)使用了前綴匹配,但是手淘和天貓使用了拓展icon,可快速將推薦詞黏貼至搜索框,京東使用了屬性、標(biāo)簽、類目擴(kuò)展 (除了對(duì)輸入內(nèi)容做聯(lián)想,還會(huì)展示出與關(guān)鍵詞相關(guān)的維度,自動(dòng)補(bǔ)全關(guān)鍵詞,增加用戶的選擇),拼多多則相對(duì)搜索詞產(chǎn)品探索較少。不過目的都是幫助用戶快速鎖定意圖,并開展搜索。
用戶在搜索框輸入字符時(shí),會(huì)在搜索框下面實(shí)時(shí)顯示下拉提示詞給用戶,方便用戶選擇;可以幫助用戶快速輸入和優(yōu)化搜索條件,且避免輸入錯(cuò)誤;在此基礎(chǔ)上很多電商app也出現(xiàn)了篩選功能,在當(dāng)前搜索建議詞基礎(chǔ)上進(jìn)行擴(kuò)展,進(jìn)一步減少用戶操作,一般在用戶搜索的不夠具體,會(huì)推薦該搜索詞更細(xì)的分類。
淘寶的輔助多重篩選搜索,輸入時(shí)展現(xiàn)的一系列聯(lián)想內(nèi)容,點(diǎn)擊右邊的一個(gè)拓展icon,就可以采用聯(lián)想出的內(nèi)容,在此基礎(chǔ)上繼續(xù)縮小范圍篩選,從而幫助用戶獲得最接近需求的內(nèi)容。
通過當(dāng)前實(shí)時(shí)輸入的詞去匹配候選詞,一般查詢頻度和同查詢?cè)~的歷史查詢記錄為重要參考依據(jù)。
在搜索詞補(bǔ)全和聯(lián)想數(shù)量上,淘寶為10條,拼多多為10條,京東/天貓超過10條,但是不能過多,過多的選擇會(huì)給用戶造成記憶負(fù)擔(dān),并且占據(jù)空間,有損用戶體驗(yàn),所以需要控制數(shù)量以便信息不會(huì)過載。
當(dāng)然部分電商在歷史的版本迭代中會(huì)嘗試在搜索輸入階段進(jìn)行糾錯(cuò),比如輸入聯(lián)衣群,下拉框中自動(dòng)糾正為連衣裙的一些選項(xiàng),目前四個(gè)電商app均并無此功能,而是在搜索結(jié)果展示內(nèi)做糾錯(cuò)及提醒;自動(dòng)容錯(cuò)功能,將極大地提升用戶體驗(yàn),并提升用戶的購買率。
語料庫的建立實(shí)現(xiàn):
- 可選擇對(duì)接第三個(gè)已有的語料庫開放平臺(tái)(可減少開發(fā)時(shí)長)
- 自主構(gòu)建語料庫體系
前綴匹配原則,完整詞未出現(xiàn)時(shí)一般使用補(bǔ)全/聯(lián)想功能,品類引導(dǎo)詞為主;當(dāng)出現(xiàn)明顯品類詞后開始出現(xiàn)更細(xì)粒度屬性及標(biāo)簽篩選詞。一般從Query log中挖掘出大量候選Query,并且保證前綴相同,然后根據(jù)某種計(jì)算模型給候選Query 計(jì)算一個(gè)分?jǐn)?shù),最后按照分?jǐn)?shù)選出TopK作為最終結(jié)果。
主要考慮因素:當(dāng)前搜索詞,用戶(性別、年齡等特征),日志中的群體。
常見搜索引擎均帶有Suggestion功能,直接使用前綴匹配后的候選詞(Trie樹 + TopK算法,回溯算法遍歷trie樹),使用用戶搜索頻度最高的TopK個(gè)搜索詞,但是這樣會(huì)使長尾詞無法得到曝光機(jī)會(huì)。
05 AC聯(lián)動(dòng)算法
在用戶進(jìn)行搜索商品時(shí),通過用戶與搜索詞信息進(jìn)行意圖預(yù)測(cè),并輔之以類目、性別預(yù)測(cè),前綴匹配后最終將某個(gè)性別和類目下的共現(xiàn)最高的TopK熱搜詞作為搜索框下拉框提示詞。
復(fù)雜模型版1
復(fù)雜模型版,使用前綴匹配算法進(jìn)行候選集召回(若召回量過少,考慮非前綴匹配結(jié)果),并做簡單截?cái)?;然后使用用戶特?性別、年齡、行為序列)、Context特征(季節(jié)、天氣、溫度、地理位置)進(jìn)行、當(dāng)前搜索詞的Embedding Vector,然后候選搜索詞也有一個(gè)Embedding Vector,三個(gè)Vector分別與候選Vector計(jì)算Cosine similarity,最終使用一個(gè)線性模型融合三個(gè)分?jǐn)?shù),最終的排序結(jié)果會(huì)進(jìn)行語義去重再選擇TopK(這里也可以用生成模型來做排序)。
這里可以將用戶、Context均視為搜索詞,就可以用日志數(shù)據(jù)構(gòu)造Doc,最終使用Doc2vec或Word2vec。
通過語義、行為、Session log等挖掘出Query間相似分,并加入用戶、搜索詞、Context類特征及其交叉特征。多維度相似融合再排序: 按照點(diǎn)擊相似度、文本相似度、Session相似度衡量Query之間的相似度,得到候選的Pair(可選)交給重排序模塊,對(duì)Query pair的優(yōu)先級(jí)做優(yōu)化,生成Top K的改寫結(jié)果。
query2query召回基于行為:?item cf/swing、Simrank++基于session:?Word2vec、Seq2seq基于內(nèi)容:?Query2vec(類似Word2vec,構(gòu)建Query序列)query排序模型:?LR/GBDT
樣本:?用戶日志,行為加權(quán)(展現(xiàn):1,點(diǎn)擊:5,購買:50)
特征:?搜索詞的Pv/Ctr/Cvr,用戶是否活躍,用戶畫像/特征,用戶+候選詞(查詢?cè)~/瀏覽詳情頁與熱搜候選詞相似度),Context特征(地理位置,溫度,天氣等)
文獻(xiàn)參考:【數(shù)據(jù)堂】/【陌生人社交算法拆解】
#專欄作家#
村上春樹,人人都是產(chǎn)品經(jīng)理專欄作家。養(yǎng)成挖掘性的思考習(xí)慣、綜合、市場、運(yùn)營、技術(shù)、設(shè)計(jì)、數(shù)據(jù)、擅長跨境電商,綜合電商與商業(yè)模型。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
專欄作家
小鑷子,人人都是產(chǎn)品經(jīng)理專欄作家。養(yǎng)成挖掘性的思考習(xí)慣、綜合、市場、運(yùn)營、技術(shù)、設(shè)計(jì)、數(shù)據(jù)、擅長跨境電商,綜合電商與商業(yè)模型。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
銷售管理制度