五分鐘了解搜索原理
本篇文章是對于搜索系統(tǒng)工作原理一個整體的介紹,對于原理的理解,是設(shè)計系統(tǒng)舉重若輕的基礎(chǔ)。
1. 信息和信息量
在介紹搜索之前,先介紹兩個概念:信息和信息量。
(采用的均是自以為比較通俗易懂的解釋,如果感興趣可以讀相關(guān)書籍)
1.1 信息是減少不確定性的東西,信息也是增加確定性的東西。
前半句是香農(nóng)信息定義,后半句是逆香農(nóng)信息定義。舉個栗子,回想下,和一個異性交往的過程。在你遇到TA之前,你不知道這個世界上有這個人的存在,后來你看到了TA的樣子,后來你了解了TA的性格、口頭禪,往事。然后一步一步,你對TA從絲毫不了解,到逐漸熟識。這期間就是一個你不斷獲取TA信息的過程,正是這些信息,讓你從完全不確定TA是怎樣的人,到完全確定TA很適合你。
1.2 信息量是一個信息能減少不確定性的度量,信息量也是一個信息能增加確定性的度量。
關(guān)于信息量,有很多數(shù)學的描述,但是通俗來講,可以這么簡單理解。舉個栗子,證人描述嫌疑犯。A證人的信息是“他是個男人”。B證人的信息是“TA是個高中男生”,C證人的信息是“TA是個長發(fā)170左右的高中生。”D證人的信息是“我認識他,他是學校的扛把子陳浩南”。我們直覺能感受到信息量的大小關(guān)系為:A<B<C<D。顯然這是正確的。
翻譯為計算機可以理解的數(shù)學邏輯:當?shù)啬腥说谋壤?0%,當?shù)馗咧心猩谋壤秊?%,當?shù)亻L發(fā)170左右的高中男生的比例是4%,當?shù)亟嘘惡颇系目赴炎拥谋壤?.0001%。因為P(A)>P(B)>P(C)>P(D),所以信息量的大小關(guān)系為:A<B<C<D。
2. 搜索的產(chǎn)品邏輯
搜索滿足了用戶迅速找到自己感興趣內(nèi)容的需求。用戶輸入一個query,搜索系統(tǒng)根據(jù)用戶的輸入的信息,篩選出系統(tǒng)認為用戶感興趣的內(nèi)容,同時按照系統(tǒng)認定的重要性進行排序展示。請注意這個表述,簡單而言,搜索可以分為三步。
- Step1:對用戶輸入信息的解讀
- Step2:根據(jù)用戶輸入信息對內(nèi)容進行篩選
- Step3:對篩選后的結(jié)果進行排序
而要了解這三步怎么在搜索系統(tǒng)中完成,就需要先了解搜索的服務(wù)器怎么存儲信息。
3. 搜索數(shù)據(jù)的存儲原理
上一張圖,假設(shè)我們做了一個新聞網(wǎng)站,那么它的結(jié)構(gòu)就是下圖。內(nèi)容進行了簡化,假設(shè)一個新聞,文本只有標題,導(dǎo)語,正文。數(shù)據(jù)只有閱讀量,評論數(shù),分享數(shù)。
圖1-1
差不多就是上圖右邊的這種結(jié)構(gòu)。右邊標識的是新聞內(nèi)容的存儲:就像圖書館的書一樣,整整齊齊按順序排好,方便查找(這個存儲結(jié)構(gòu)的名字叫做索引,就是來自于圖書館的用語)。左邊是詞庫:只要一次搜索的輸入詞能匹配到詞庫,就可以快速的查找詞庫到對應(yīng)的內(nèi)容。
每個搜索系統(tǒng)都有自己的詞庫,無法對應(yīng)到分詞的搜索行為就會沒有結(jié)果。每個搜索系統(tǒng)都會根據(jù)目標用戶的不同,有對應(yīng)的一套詞庫,就像字典一樣,《冶金專業(yè)詞典》和《生物學大辭典》收錄的詞條是不同的,知乎的詞庫和淘寶的詞庫也不同。搜索的很多優(yōu)化都是集中在詞庫的優(yōu)化上。
簡單總結(jié)下,搜索的存儲原理就是:一個系統(tǒng)詞庫,一個排列整齊的內(nèi)容索引庫,同時系統(tǒng)詞庫和內(nèi)容索引庫之間可以快速關(guān)聯(lián)。
在這個搜索系統(tǒng)的儲存結(jié)構(gòu)的基礎(chǔ)上,我們提到的搜索三步驟將依次展開。
4. Step1:對用戶輸入信息的解讀
前面提到,搜索的詞庫是有限的,但是用戶的輸入?yún)s是沒有限制的。那么怎么把無限制的搜索轉(zhuǎn)化為有限的詞庫,并且匹配到對應(yīng)的結(jié)果呢?這里需要介紹一個新的概念:分詞,簡單來說就是對輸入字符串進行分拆。
同樣以【圖1-1】中的新聞搜索系統(tǒng)為例。如果用戶輸入的query為“中國的轉(zhuǎn)基因食物”,系統(tǒng)中其實沒有這個詞。如果沒有分詞功能,這個搜索就會立即結(jié)束,即使系統(tǒng)里確實有對應(yīng)的內(nèi)容。分詞的工作原理是在無法精確匹配的情況下,會對用戶的輸入進行進一步的拆分。于是我們得到了下面的結(jié)果。
“中國的轉(zhuǎn)基因食物”——“中國”、“的”、“轉(zhuǎn)基因”、“食物”。
并不是所有的詞都有信息量,如果召回“的‘’的結(jié)果,那么幾乎所有的新聞內(nèi)容里面都會有這個字,召回這么多結(jié)果顯然是不對的。比如這個query里的“的”,這個詞實際上在分詞系統(tǒng)中會被直接忽略掉。正是因為出現(xiàn)在內(nèi)容中的概率不同,一個詞出現(xiàn)的新聞越多,這個詞的信息量就越小,信息量太小的詞會被忽略,也就是停用詞。同時包含信息量越大的詞的新聞內(nèi)容,會更更要。那么去掉停用詞之后,結(jié)果就進一步簡化。
“中國的轉(zhuǎn)基因食物”——“中國”、“轉(zhuǎn)基因”、“食物”。
經(jīng)過處理,用戶非標準的query就被轉(zhuǎn)化為標準的詞庫,就可以快速找到對應(yīng)的內(nèi)容了。如【圖1-1】所示。
5. Step2:根據(jù)用戶輸入信息對內(nèi)容進行篩選
經(jīng)過對用戶的query解讀之后,其實就得到了一些標準化的詞,而這些詞就會對應(yīng)一些搜索目標內(nèi)容,接下來就是對于內(nèi)容的篩選。
用戶進行了一次搜索,一部分結(jié)果被搜索了出來。那么所有的內(nèi)容根據(jù)“內(nèi)容是否相關(guān)”、“內(nèi)容是否被召回”兩個維度,就被分為了四部分。
- 召回的相關(guān)內(nèi)容:搜索出來的內(nèi)容中,和用戶搜索相關(guān)的部分。
- 召回的不相關(guān)內(nèi)容:搜索出來的內(nèi)容中,和用戶搜索不相關(guān)的部分。
- 未召回的相關(guān)內(nèi)容:沒有搜索出來的內(nèi)容中,和用戶搜索相關(guān)的部分。
- 未召回的不相關(guān)內(nèi)容:沒有搜索出來的內(nèi)容中,和用戶搜索不相關(guān)的部分。
搜索一般而言,決定是否篩選出來,會從兩個角度衡量,準確率,和召回率。
準確率就是所有搜到的內(nèi)容里面,相關(guān)的內(nèi)容的比例。準確率:
召回率就是所有應(yīng)該搜到的內(nèi)容里面,真正被搜出來的比例。召回率:
準確率和召回率是一對存在矛盾的指標。需要權(quán)衡。最終衡量會取兩個的調(diào)和平均數(shù)作為目標函數(shù)。即F值:
這三個概念在搜索優(yōu)化中是關(guān)鍵性指標,牽扯到人工打分和更高級的優(yōu)化。這里不展開更多。我們只需要記住一點:并不是所有的包含用戶query關(guān)鍵詞的結(jié)果都應(yīng)該被召回。
6. Step3:對篩選后的結(jié)果進行排序
排序影響著搜索的結(jié)果質(zhì)量,越往前的結(jié)果約容易獲得用戶的點擊。好的搜索不僅僅是把應(yīng)該搜索的內(nèi)容盡可能的搜索出來,同時還要考慮應(yīng)該把最容易吸引用戶的內(nèi)容展示在前面。
搜索排序比較大的基礎(chǔ)邏輯是通用的:
用戶輸入一個文本轉(zhuǎn)化為標準詞庫中的詞,搜索系統(tǒng)根據(jù)每個具體內(nèi)容是否包含這些詞決定是否展示這些內(nèi)容,同時搜索系統(tǒng)根據(jù)文本相關(guān)性給這些要展示的內(nèi)容一個分數(shù)。而最終排序則根據(jù)每個內(nèi)容的分數(shù)排序。
這個Lucene的的核心排序公式的原理,網(wǎng)上有介紹。但是實際的情況其實更為復(fù)雜。還是以我們之前提到的新聞搜索系統(tǒng)為例(方便理解,再貼一遍圖)
如果用戶搜索“轉(zhuǎn)基因”,那么這個轉(zhuǎn)基因的文本出現(xiàn)在標題中,還是出現(xiàn)在導(dǎo)語中,還是出現(xiàn)在正文中,體現(xiàn)在分數(shù)上應(yīng)該是不一樣的。顯然出現(xiàn)在標題中應(yīng)該有更高的分數(shù)。同樣也需要考慮業(yè)務(wù)數(shù)據(jù),比如一個閱讀量10萬+的帖子和一個閱讀量3的帖子相比,即使閱讀量低的帖子文本相關(guān)性更強,但是顯然10萬+的帖子應(yīng)該在前面。
其實所有的數(shù)據(jù)都可以分為兩類,文本和數(shù)據(jù)。文本用于計算內(nèi)容的相關(guān)性,這部分的打分交給Lucene成熟的算法解決,目前市面上也都有成型的開源解決方案。而怎么處理文本之間的關(guān)系,以及數(shù)據(jù)之間的關(guān)系,才是一個搜索系統(tǒng)設(shè)計最核心的部分。
以基于Lucene的Solr系統(tǒng)為例,文本和數(shù)據(jù)配置代碼其實很簡單。在<str name=”bf”>和<str name=”qf”>標簽中只需要幾行代碼就能完成。
- <str name=”bf”>中是對于業(yè)務(wù)數(shù)據(jù)賦予權(quán)重。
- <str name=”qf”>中是對于文本數(shù)據(jù)賦予權(quán)重。
在研究過Solr系統(tǒng)這個機制之后,對Solr核心公式進行變形,就得到了一個公式:
- 代表針對文本,我們給出的文本分數(shù)權(quán)重。比如這個系統(tǒng)中有三種文本,標題,導(dǎo)語,正文。根據(jù)重要性,標題權(quán)重為10,導(dǎo)語權(quán)重為5,正文權(quán)重為1。
- 代表針對文本,Lucene算法給出的文本相關(guān)性分數(shù),這個會綜合考慮文本的字數(shù),這個搜索詞在所有文本中出現(xiàn)的概率等等因素(想進一步了原理的同學,可以看下TF-IDF與余弦相似性的介紹)。
- 代表針對數(shù)據(jù),我們給出的數(shù)據(jù)權(quán)重。比如這個系統(tǒng)中有三種數(shù)據(jù),評論量,分享數(shù),閱讀量。根據(jù)重要性,標題評論數(shù)權(quán)重為100,分享數(shù)權(quán)重為200,閱讀量權(quán)重為1。(一般而言會引入時間衰減性,這里暫不討論)
- 代表針對數(shù)據(jù),具體的值。比如這個系統(tǒng)得三種數(shù)據(jù),評論量,分享數(shù),閱讀量。
- 代表歸一化系數(shù),意味著權(quán)重可以給的非常大,最后總的分值也會在一個合理的范圍內(nèi)。
- 是本次根據(jù)算法索引判斷出的。代表本次打分,用戶輸入query提供信息的信息量大小。如果輸入query提供了越多的信息,則S越大。
- 增加,不變,之前的系數(shù)不變,之前的系數(shù)增加。而代表文本數(shù)據(jù)的對整體分數(shù)的貢獻,則 越大,就說明文本數(shù)據(jù)相比于業(yè)務(wù)數(shù)據(jù)就占有更大的權(quán)重。比如:輸入“北京國慶交通擁堵”,和輸入“交通擁堵”相比,“北京國慶交通擁堵”提供給了系統(tǒng)更多的信息,S值更大,文本的打分在總分數(shù)匯總占比越大。
所以我們可以看到,其實最終影響排序的,是我們對于文本數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的賦予的權(quán)重,即: 代表針對文本的權(quán)重,和 代表針對數(shù)據(jù)的權(quán)重。
這兩組數(shù)據(jù),影響了搜索最終的排序,而這組數(shù)據(jù)的賦值,正是搜索系統(tǒng)的對業(yè)務(wù)的理解。
7. 小結(jié)
本篇文章是對于搜索系統(tǒng)工作原理一個整體的介紹,對于原理的理解,是設(shè)計系統(tǒng)舉重若輕的基礎(chǔ)。
在這些基礎(chǔ)原理之上,搜索系統(tǒng)還有很多標準功能。那么一個比較完備的搜索系統(tǒng)應(yīng)該具備怎樣的標準功能?這些功能又有著怎么的原理?移動時代,搜索前端設(shè)計應(yīng)該如何規(guī)劃?歡迎關(guān)注專欄,繼續(xù)收看下期。
#專欄作家#
潘一鳴,公眾號:產(chǎn)品邏輯之美,人人都是產(chǎn)品經(jīng)理專欄作家。畢業(yè)于清華大學,暢銷書《產(chǎn)品邏輯之美》作者;先后在多家互聯(lián)網(wǎng)公司從事產(chǎn)品經(jīng)理工作,有很多復(fù)雜系統(tǒng)的構(gòu)建實踐經(jīng)驗。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
這篇文章 準確率與精準率的概念沒有說清楚,文章中錯把精準率混為了準確率,
這是干貨無疑了,有視頻么。求詳解
不錯
我感覺,分詞之后,分為 中國 轉(zhuǎn)基因 食物 這三塊時,進行相關(guān)詞的索引的時候,應(yīng)該還要考慮一個是不同詞搜索結(jié)果與其余詞的匹配度,還有一個是TF-IDF值吧
f值用來干嘛的
5分鐘,呵呵
在高級搜索中,全部關(guān)鍵詞、任意關(guān)鍵詞、不包含關(guān)鍵詞輸入后,會怎么處理?也同樣會被這么分詞嗎?
會被分詞
你這里的“準確率”和“召回率”指的是全局的,是針對所有搜索的結(jié)果來說的,那么可以推斷出目標函數(shù)F也是一個全局的結(jié)果。我特別好奇的是如何判斷一篇文章是否被召回呢?
人工判定
計算準確率?和召回率中A/B/C分別代表什么?
據(jù)我理解,是搜索結(jié)果根據(jù)“是否召回”和“是否相關(guān)”兩個維度分類而產(chǎn)生的四部分內(nèi)容。
??
寫得清晰