97国产永久网址在线观看,欧美亚洲综合网站,国产在线观看www鲁啊鲁免费

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

解構(gòu)電商、O2O：探秘搜索系統(tǒng)的“簡(jiǎn)歷”

高暉

2017-06-29

14 評(píng)論 17742 瀏覽 135 收藏

渴望踏入产品经理行业但无从下手？我们的1V1私教陪跑实战营，由大厂导师手把手带你入门，从理论到实践，助你快速掌握核心技能，轻松上手！

之前的文章探討過(guò)用戶端背后系統(tǒng)的邏輯和結(jié)構(gòu)情況，后續(xù)我會(huì)考慮逐步解構(gòu)每個(gè)相關(guān)系統(tǒng)的情況。今天跟大家聊一聊搜索系統(tǒng)，搜索系統(tǒng)在所有電商系統(tǒng)里面復(fù)雜度和難度是可以排的上前列的。關(guān)于算法方面介紹的文章很多，這里不做贅述，只解構(gòu)下搜索系統(tǒng)的基本邏輯和實(shí)現(xiàn)。對(duì)于產(chǎn)品來(lái)說(shuō)未免溝通時(shí)“露怯”，了解搜索系統(tǒng)的基本知識(shí)和結(jié)構(gòu)是有必要的。

搜索系統(tǒng)的“基本介紹”

搜索系統(tǒng)，顧名思義提供大數(shù)據(jù)查找篩選的系統(tǒng)功能。在電商和O2O領(lǐng)域作為一個(gè)主要的流量入口起到了至關(guān)重要的作用。

“基本介紹”：指標(biāo)

對(duì)于搜索來(lái)說(shuō)，主要的指標(biāo)為準(zhǔn)確率和召回率。我們以下圖為例解釋下什么叫做準(zhǔn)確率和召回率。

圖中整體的部分為所有商品數(shù)據(jù)的全集，其中包括不相關(guān)和相關(guān)的內(nèi)容。

準(zhǔn)確率：搜索結(jié)果中相關(guān)內(nèi)容的比例，即圖中A的部分
召回率：搜索結(jié)果占整體內(nèi)容的比例，即A+B

由此我們可以看出，最完美的結(jié)果是A足夠大且B足夠小，但實(shí)際實(shí)現(xiàn)中會(huì)發(fā)現(xiàn)兩個(gè)指標(biāo)是相反的（召回率越高準(zhǔn)確率會(huì)越低）。需要通過(guò)規(guī)則來(lái)平衡這塊部分。

“基本介紹”：基礎(chǔ)結(jié)構(gòu)

搜索系統(tǒng)主要的組成部分有幾塊：

切詞邏輯
詞庫(kù)
基礎(chǔ)信息
加權(quán)規(guī)則
排序展示邏輯

整體流程如下

名詞解釋：

query：是查詢的意思，這里指用戶在搜索框輸入的內(nèi)容。
切詞：又叫分詞，是根據(jù)詞庫(kù)/詞典將一段文本進(jìn)行切分以便機(jī)器識(shí)別的過(guò)程。
詞庫(kù)：指用于切詞的詞庫(kù)。
加權(quán)：將檢索結(jié)果集按照一定的維度、規(guī)則進(jìn)行打分就叫做加權(quán)。
索引：商品信息存儲(chǔ)時(shí)需要建立索引，索引作為每個(gè)商品的標(biāo)識(shí)方便在大數(shù)據(jù)量的情況下快速查找篩選。

“基本介紹”：應(yīng)用場(chǎng)景

搜索的應(yīng)用一般有兩種：全文檢索和suggest。其中suggest的規(guī)則比全文檢索要簡(jiǎn)單一些。服務(wù)上由于suggest一般支持模糊查詢的情況，所以要考慮服務(wù)上是否要獨(dú)立還是公用一套。

搜索系統(tǒng)的“工作履歷”:流程解構(gòu)

切詞/詞庫(kù)

切詞，又叫分詞。用于將用戶輸入的無(wú)結(jié)構(gòu)化字符變成機(jī)器可識(shí)別的詞組。市面上有很多成熟的切詞組件。切詞邏輯有很多種，根據(jù)字符、概率等，電商和O2O一般使用字符串切詞的方式處理。關(guān)于切詞的方法最基礎(chǔ)的有最大正相匹配、最大逆向匹配、雙向匹配等，具體的內(nèi)容可以百度查詢。切詞工具根據(jù)詞庫(kù)中的詞典進(jìn)行切分，一般開(kāi)源的切詞工具都有默認(rèn)的詞庫(kù)和自定義詞庫(kù)兩種情況。用戶可通過(guò)添加自定義詞庫(kù)來(lái)完善補(bǔ)充。

這里面需要強(qiáng)調(diào)的是切詞時(shí)候的過(guò)濾，尤其生鮮類非標(biāo)品情況下特別需要注意。

單字詞、助詞之類的是否要過(guò)濾掉。如米、面、油等
別名情況的處理，尤其是生鮮類。比如在北京叫油菜，在上海叫上海青，在重慶叫漂兒白

檢索結(jié)果集

根據(jù)切出的詞語(yǔ)進(jìn)行匹配，匹配到的商品信息集合為檢索結(jié)果集。結(jié)果集需要做檢索、過(guò)濾、標(biāo)記三個(gè)步驟。

檢索

檢索項(xiàng)包括但不限于：

商品名稱
商品標(biāo)題、副標(biāo)題
商品描述
商品參數(shù)、規(guī)格
商品品牌（生鮮副食品類尤為重要，比如五得利面粉、鵬程五花肉）
商品品類（一級(jí)類、二級(jí)類）
別名關(guān)聯(lián)商品
促銷類型

成熟的電商系統(tǒng)不僅僅實(shí)現(xiàn)用戶的基本商品檢索，還會(huì)根據(jù)query進(jìn)行意圖分析來(lái)進(jìn)行query轉(zhuǎn)換。以生鮮電商舉例，當(dāng)用戶搜索“豬肉”時(shí)，用戶希望獲得的不是含有豬肉詞語(yǔ)的商品，而是豬肉的各個(gè)部位、豬肉級(jí)別等。這時(shí)應(yīng)該轉(zhuǎn)化為后臀尖、前臀尖、里脊，一級(jí)白條等詞語(yǔ)進(jìn)行檢索，而不是匹配豬肉。意圖分析主要有兩個(gè)方面

行為模式分析
用戶畫(huà)像分類

過(guò)濾

獲取的結(jié)果集需要經(jīng)過(guò)去重、過(guò)濾的處理。此部分行為可以在加權(quán)打分后進(jìn)行處理，也可以安排在初選結(jié)果后處理。

同一個(gè)商品被多個(gè)詞語(yǔ)命中需要去重
現(xiàn)實(shí)中的電商搜索可能會(huì)根據(jù)不同的場(chǎng)景構(gòu)建所謂的“小搜索”，如按照類目、按照品類、按照定制化場(chǎng)景等。所以針對(duì)不同的搜索場(chǎng)景可能會(huì)有單獨(dú)的過(guò)濾去重條件，也可以在構(gòu)建數(shù)據(jù)的時(shí)候使用不同的庫(kù)進(jìn)行處理。
O2O場(chǎng)景需要按照一定區(qū)域概念（城市、商圈等）進(jìn)行過(guò)濾
售罄商品需要過(guò)濾
下線商品需要過(guò)濾

標(biāo)記

在檢索完成后需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)記，以便后續(xù)做加權(quán)時(shí)使用。此步也可以在做加權(quán)處理的時(shí)候同步進(jìn)行。

加權(quán)

加權(quán)的目的是為了根據(jù)模型確定結(jié)果集各個(gè)商品的排序優(yōu)先級(jí)。加權(quán)的維度有很多，根據(jù)不同的場(chǎng)景考慮也會(huì)有所區(qū)別。

加權(quán)因子主要分為幾個(gè)維度：

相關(guān)度
商業(yè)化因素
個(gè)性化因素
人為因素
數(shù)據(jù)模型統(tǒng)計(jì)

相關(guān)度

這里指的是分詞的相關(guān)度。包括文本匹配、詞間距、是否是中心詞、品牌詞等。中心詞的概念是是否命中了核心的詞語(yǔ)，中心詞和品牌詞也需要有對(duì)應(yīng)的詞庫(kù)進(jìn)行維護(hù)更新。詞間距是計(jì)算相關(guān)性的一個(gè)維度，比如一段文本中包含清華、大學(xué)，“清華大學(xué)xxxxxxx”和“清華xxxxxxx大學(xué)”相比肯定是前者相關(guān)性更高一些。

這里面有幾點(diǎn)需要注意：

query被完整匹配和部分匹配的權(quán)重是不同的
單詞命中和多詞命中同一商品也需要考慮權(quán)重情況

商業(yè)化因素

考慮業(yè)務(wù)場(chǎng)景下需要關(guān)注的因素稱之為商業(yè)化因素。

商品庫(kù)存
是否新品（考慮新品的特殊性，也可以將此權(quán)重獨(dú)立打分）
商品銷量
是否促銷商品
銷售額
商品分類
商品品牌
CTR（廣告類的商品要考量）
所屬平臺(tái)（POP、自營(yíng)）
區(qū)域（020屬性）
終端情況（手機(jī)、PC）

個(gè)性化因素

按照個(gè)人使用的情況進(jìn)行個(gè)性化排序，做到所謂的“千人千面”。包括下單數(shù)據(jù)分析等。這部分同意圖分析的情況類似。

人為因素

在日常運(yùn)營(yíng)過(guò)程中，有很多需要做強(qiáng)制人為干預(yù)的事情（如人工置頂）。所以在加權(quán)的時(shí)候需要考慮此類行為。

數(shù)據(jù)模型統(tǒng)計(jì)

可以根據(jù)用戶的一些行為數(shù)據(jù)或者埋點(diǎn)數(shù)據(jù)分析，提供綜合排名靠前的商品或者分類做單獨(dú)加權(quán)權(quán)重。包括：

用戶點(diǎn)擊
用戶收藏
購(gòu)買數(shù)

排序處理

根據(jù)加權(quán)的情況和一些特殊的處理，需要對(duì)最終輸出的結(jié)果做排序調(diào)整。

這里提供兩種方法供大家參考

可以按照加權(quán)打分的分值之和做排序。這樣做比較直接，但在后續(xù)調(diào)整的過(guò)程中驗(yàn)證規(guī)則時(shí)容易混淆不清晰。
將不同的權(quán)重維度單獨(dú)計(jì)算，生成一個(gè)長(zhǎng)位數(shù)的標(biāo)識(shí)符，每個(gè)權(quán)重在標(biāo)識(shí)符上有自己的位置。按照優(yōu)先級(jí)的順序從左到右依次排列?？紤]到機(jī)器計(jì)算的易用性上，可以在加權(quán)時(shí)使用十進(jìn)制，然后統(tǒng)計(jì)時(shí)轉(zhuǎn)換成二進(jìn)制即可。類似下圖這樣，位數(shù)和排序可以根據(jù)具體業(yè)務(wù)場(chǎng)景制定。

最后要說(shuō)下，在算法中要考慮相同因子下的打散，比如同一個(gè)商家店鋪下的商品排序需要按照一定比例分布在不同地方，避免一次性展示過(guò)多同類商品。

如果系統(tǒng)能力富足，也可以增加單獨(dú)的反作弊模塊來(lái)處理一些惡意刷單刷榜的情況。

搜索與“大家”的關(guān)聯(lián)

搜索系統(tǒng)主要為用戶端提供搜索結(jié)果的輸出，輸入方面來(lái)自于相關(guān)的下游系統(tǒng)。

當(dāng)搜索場(chǎng)景進(jìn)一步細(xì)分時(shí)，要考慮更多數(shù)據(jù)的對(duì)接和分類。

在設(shè)計(jì)時(shí)有幾個(gè)需要注意的地方：

搜索數(shù)據(jù)比較龐大，直接使用API調(diào)用實(shí)時(shí)數(shù)據(jù)對(duì)于系統(tǒng)壓力過(guò)大，一般可采取搜索自建索引庫(kù)，定時(shí)（比如15分鐘）從相關(guān)系統(tǒng)拉取數(shù)據(jù)的方式。
基于不同的場(chǎng)景可以提供單獨(dú)的索引庫(kù)來(lái)實(shí)現(xiàn)，避免邏輯耦合不好分離做個(gè)性化。
用戶端在調(diào)用suggest時(shí)考慮到服務(wù)壓力，建議延遲幾秒請(qǐng)求數(shù)據(jù)。
分詞詞庫(kù)的維護(hù)也依賴于定期從相關(guān)系統(tǒng)中獲取補(bǔ)充。

結(jié)語(yǔ)

搜索系統(tǒng)的核心是算法，從產(chǎn)品層面來(lái)說(shuō)更多是關(guān)注業(yè)務(wù)邏輯規(guī)則以及上下游的依賴情況。本文對(duì)搜索的一些通用情況做了簡(jiǎn)單介紹，更深入的內(nèi)容還需要大家在日常過(guò)程中進(jìn)一步的深挖。

解構(gòu)電商、020：查閱商品的“檔案柜”

解構(gòu)電商、O2O：促銷系統(tǒng)的“進(jìn)化”之路

解構(gòu)電商、O2O：用戶端“背后”的邏輯

解構(gòu)用戶消費(fèi)心理：卓越的服務(wù)體驗(yàn)始于「心」

作者：高暉，微信號(hào)公眾號(hào)@雜談暖閣，10余年IT經(jīng)驗(yàn)，互聯(lián)網(wǎng)老兵。曾就職當(dāng)當(dāng)網(wǎng)、到家美食會(huì)、美菜網(wǎng)等公司，現(xiàn)就職餓了么。

本文由 @高暉原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

高暉

《業(yè)務(wù)中臺(tái)產(chǎn)品搭建指南》作者

19篇作品 250895總閱讀量

AI分類模型評(píng)估指標(biāo)：混淆矩陣、KS、AUC

12-293752 瀏覽

拼多多冷對(duì)價(jià)格戰(zhàn)？

03-062290 瀏覽

B端产品设计思路：如何平衡大量客户需求

刚刚

現(xiàn)在才發(fā)現(xiàn)：大廠是用這些維度設(shè)計(jì)【自定義】的

09-133930 瀏覽

檸檬市場(chǎng)下的閑魚(yú)們：做重資產(chǎn)還是做大規(guī)模

11-212202 瀏覽

如何找到可以主導(dǎo)的創(chuàng)業(yè)市場(chǎng)？

01-288028 瀏覽

評(píng)論

江湖小小米

你好，問(wèn)一下，類似做搜索，現(xiàn)在市面上是否有很多成熟得API，直接調(diào)用即可呢？最好是免費(fèi)得 ??

最近來(lái)自上海回復(fù)
1. 高暉作者回復(fù)江湖小小米
  
  你可以參考下ES。是一個(gè)開(kāi)源的程序，支持二次開(kāi)發(fā)
  
  最近來(lái)自北京回復(fù)
2. 江湖小小米回復(fù)高暉
  
  謝謝！
  
  最近來(lái)自上海回復(fù)
許詩(shī)元丶

還沒(méi)入門(mén)產(chǎn)品汪班門(mén)弄斧一下，關(guān)于一開(kāi)始的準(zhǔn)確率和召回率有點(diǎn)疑問(wèn)，不知道互聯(lián)網(wǎng)運(yùn)營(yíng)中的定義和機(jī)器學(xué)習(xí)預(yù)測(cè)算法是否一致，如果一致應(yīng)該是以下定義：
相關(guān)內(nèi)容藍(lán)色部分 = FP （False Positive）
搜索結(jié)果A = TP （True Positive）
搜索結(jié)果B = FN （False Negative）
不相關(guān)內(nèi)容灰色部分 = TN （True Negative）

準(zhǔn)確率(Precision) = TP /（TP + FP）
召回率(Recall) = TP /（TP + FN）

準(zhǔn)確率：搜索結(jié)果中相關(guān)內(nèi)容占所有相關(guān)內(nèi)容的比例，即圖中A占所有相關(guān)內(nèi)容的比例
召回率：搜索結(jié)果中縣官內(nèi)容占所有被搜索出來(lái)內(nèi)容的比例，即圖中A占A+B

我要關(guān)注你，好好學(xué)習(xí)一下

最近來(lái)自廣東回復(fù)
1. 許詩(shī)元丶回復(fù)許詩(shī)元丶
  
  準(zhǔn)確率（Accuracy）= TP+TN / (TP+FP+TN+FN)
  精確率（Precision）= TP /（TP + FP）
  召回率（Recall）= TP /（TP + FN）
  
  準(zhǔn)確率和精確率指標(biāo)的中文名稱搞錯(cuò)了，等我探究出來(lái)電商常用的這兩個(gè)指標(biāo)再來(lái)回復(fù)。
  
  最近來(lái)自廣東回復(fù)
2. 許詩(shī)元丶回復(fù)許詩(shī)元丶
  
  不好意思誤導(dǎo)大家，第一次發(fā)的對(duì)應(yīng)關(guān)系錯(cuò)了，正好得出相反的結(jié)論，我要改正！
  戲可真多，再回復(fù)我是狗，汪汪汪。。。
  
  相關(guān)內(nèi)容藍(lán)色部分 = FN （False Negative）
  搜索結(jié)果A = TP （True Positive）
  搜索結(jié)果B = FP （False Positive）
  不相關(guān)內(nèi)容灰色部分 = TN （True Negative）
  
  準(zhǔn)確率（Accuracy）= TP+TN / (TP+FP+TN+FN)
  精確率（Precision）= TP /（TP + FP）
  召回率（Recall）= TP /（TP + FN）
  
  精確率 = 正確識(shí)別的個(gè)體總數(shù) / 識(shí)別出的個(gè)體總數(shù)
  召回率 = 正確識(shí)別的個(gè)體總數(shù) / 存在的應(yīng)識(shí)別個(gè)體總數(shù)
  
  精確率（正確率）：搜索結(jié)果中相關(guān)內(nèi)容占所有被搜索出來(lái)內(nèi)容的比例，即圖中A占A+B的比例
  召回率（查全率）：搜索結(jié)果中相關(guān)內(nèi)容占所有相關(guān)內(nèi)容的比例，即圖中A占所有相關(guān)內(nèi)容的比例
  
  最近來(lái)自廣東回復(fù)
3. 高暉作者回復(fù)許詩(shī)元丶
  
  你回復(fù)的這么呆萌，我不知道該咋回復(fù)了。。。
  
  最近來(lái)自北京回復(fù)
4. 許詩(shī)元丶回復(fù)高暉
  
  那就干杯?? 我自己好好研究研究
  不過(guò)我有個(gè)重要的問(wèn)題，我有3年市場(chǎng)營(yíng)銷崗位的經(jīng)驗(yàn)，工作后去讀了個(gè)數(shù)據(jù)方面的研究生，去年12月畢業(yè)做的還是運(yùn)營(yíng)方面的工作。。感覺(jué)想做產(chǎn)品經(jīng)理阻力重重
  
  最近來(lái)自廣東回復(fù)
5. 高暉作者回復(fù)許詩(shī)元丶
  
  那你為啥要轉(zhuǎn)產(chǎn)品呢，這個(gè)問(wèn)題可能需要長(zhǎng)談才能說(shuō)明白。很多方向的判斷要考慮了
  
  最近來(lái)自北京回復(fù)
鄒偉

666，開(kāi)始關(guān)注你了

最近來(lái)自上海回復(fù)
蒼天大樹(shù)

請(qǐng)教一個(gè)問(wèn)題，為什么搜索過(guò)濾、排序不是作為檢索條件提交搜索引擎，一次性得到結(jié)果；而是在檢索結(jié)果后做過(guò)濾排序。
1. 檢索結(jié)果肯定是按分頁(yè)查詢，針對(duì)當(dāng)前頁(yè)過(guò)濾后，極端情況可能沒(méi)有商品。
2. 排序?yàn)槭裁词轻槍?duì)當(dāng)前查詢的產(chǎn)品過(guò)濾，而不是針對(duì)有所有的產(chǎn)品排序呢？

最近來(lái)自北京回復(fù)
1. 高暉作者回復(fù)蒼天大樹(shù)
  
  分步驟有利于負(fù)載，而且過(guò)于復(fù)雜的邏輯耦合在一起提交，很容易在后期優(yōu)化的時(shí)候出問(wèn)題。
  將邏輯分成不同的步驟，逐步完成有利于后期產(chǎn)品邏輯解耦和系統(tǒng)實(shí)施。不同模塊也可以單獨(dú)處理。
  不知道我的回答是否解答了你的問(wèn)題
  
  最近來(lái)自北京回復(fù)
一葉一世界

高總，這些你用visio畫(huà)的？

最近來(lái)自廣東回復(fù)
1. 高暉作者回復(fù)一葉一世界
  
  不是，auxre畫(huà)的
  
  最近來(lái)自北京回復(fù)