評分算法(1):用戶評分
從《社交網(wǎng)絡(luò)》到豆瓣評分,這些都是用戶評分的表現(xiàn)。文章介紹了用戶評分算法的體系,并以豆瓣評分為例,展開了詳細(xì)說明,包含貝葉斯公式和威爾遜區(qū)間法,與大家分享。
開一個新的系列:評分算法,先講用戶評分。
從下圖的電影《社交網(wǎng)絡(luò)》開始講起,玻璃上的公式是ELO排名算法,可以將比較打分的結(jié)果量化為分?jǐn)?shù),為女生打分,這種算法目前主要應(yīng)用在對戰(zhàn)類游戲的排序中。這個算法我們不展開講,感興趣的朋友可以去網(wǎng)絡(luò)搜相關(guān)資料。
我先給評分算法一個簡單的定義:評分算法就是通過對已有數(shù)據(jù)進(jìn)行計算,量化評估某一類主體,從而實現(xiàn)對這一類主體的評價、考核和管理。在前面提到的例子中,被打分的主題就是大學(xué)女生的相貌,數(shù)據(jù)就是用戶的打分。
在當(dāng)前互聯(lián)網(wǎng)中,產(chǎn)品連接著用戶、商品、內(nèi)容、服務(wù)、服務(wù)者,每一類主體都有著大量數(shù)據(jù),評分方便其他角色對這些主體進(jìn)行統(tǒng)一評估。與此同時,配送員、司機(jī)、教師、客服、銷售這樣的角色已經(jīng)實現(xiàn)了自動化的分配,利用評分將這些角色的表現(xiàn)量化和可視化,也有利于對這些角色進(jìn)行有效管理。
早上打車上班,如果你給司機(jī)一個評價,這個評價會被計入司機(jī)的服務(wù)分,影響司機(jī)師傅的派單和收入。中午打算點個外賣,你翻開了美團(tuán),看著商家評分,最終選擇了你的外賣。晚上打算看個電影,翻看豆瓣電影評分,選擇了一款評分不錯的電影。作為消費者,評分無時不刻不在影響我們的消費選擇,而我們的評分也成為了商業(yè)公司內(nèi)部評分體系的一個數(shù)據(jù)源。
消費的評分體系相對比較簡單,只涉及用戶評價這一單一數(shù)據(jù)源,而內(nèi)部評分體系需要考慮更多因素。本期先聊消費者評分,以豆瓣評分為例。
基于用戶評價的排序策略,會面臨不同內(nèi)容的評分人數(shù)差距過大的問題。比如圖書A有100個人打分,平均分是4.5分,圖書B有5個人打分,平均分是4.6分,而同時全站平均分是3.0分,那么我們應(yīng)該怎么給用戶推薦呢?第一種思路是可以針對數(shù)據(jù)量少的打分,做一定程度的降權(quán),如用下面較為簡單的置信度降權(quán)函數(shù):
rank=N/(N+X)·score
其中N為評分的數(shù)量,score為原始的評分值,X為可調(diào)節(jié)的參數(shù)。將X設(shè)為5時,函數(shù)為
rank=N/(N+5)·score
經(jīng)過降權(quán)后,圖書A的得分是4.29,圖書B的得分是2.3,圖書A的得分相對比較合理,但圖書B遠(yuǎn)低于原始評分4.6,也低于全站平均分,可見這種方法對數(shù)據(jù)量小的內(nèi)容有很大的抑制。用貝葉斯平均法便可避免這一問題,也就是第二種思路。
貝葉斯公式是統(tǒng)計學(xué)中的一個基本工具,可以作為很多策略設(shè)計的依據(jù)。還是用這個例子介紹其原理,即當(dāng)一個內(nèi)容還沒有或者只有少量評分的時候,可以先認(rèn)為這個內(nèi)容的評分和大部分內(nèi)容的平均評分差不多,只有當(dāng)對這個內(nèi)容的評分越來越多的時候,才能得到這個內(nèi)容的評分。通用的貝葉斯平均公式如下,其中average表示全站平均分。
rank=X/(N+X)·average+N/(N+X)·score
依然假設(shè)X為5,全站平均分為3.0,那么圖書A的得分是4.42,圖書B的得分就是3.8。圖書B的得分比置信度降權(quán)法高,且高于全站平均分,相對更加合理。
在有些場景下,如果希望評價少的內(nèi)容出現(xiàn)在后面,則置信度降權(quán)法比貝葉斯平均法更適用;而希望給評分少的內(nèi)容足夠曝光時,貝葉斯平均法就比置信度降權(quán)法更適用。
當(dāng)然,以上的調(diào)整方法看起來缺乏一些數(shù)學(xué)上的嚴(yán)謹(jǐn)性,那么有沒有更嚴(yán)謹(jǐn)?shù)乃惴??答案是肯定的。我個人覺得比較可靠的情況下是使用威爾遜區(qū)間法。
威爾遜區(qū)間可以在給定置信度的情況下,給出打分概率的置信區(qū)間。一般使用情況下,威爾遜區(qū)間適用于零一變量。比如用戶是否點擊視頻、圖片、廣告,p就是用戶點擊概率,n是統(tǒng)計的數(shù)據(jù)量,z是給定置信度參數(shù),常用的幾個值,90%置信度下z=1.64,95%置信度下z=1.96,99%置信度下z=2.58,其他的都可以查表。在打分場景下,需要做的事情是將打分均值歸一化為p值,比如平均分時3.5,滿分5分,那么就是3.5/5=0.7。同時n取打分人數(shù),z已經(jīng)是置信度參數(shù)。
威爾遜區(qū)間法的好處是多樣的。首先是統(tǒng)計上的合理性,無論數(shù)據(jù)量大小,都有一致的數(shù)學(xué)表達(dá)式。其次是在區(qū)間的上下界都有其業(yè)務(wù)意義。
在數(shù)據(jù)量較小的情況下,數(shù)據(jù)均值一定是不準(zhǔn)的,對于業(yè)務(wù)而言,某些場景他們需要的是數(shù)據(jù)的上界,某些場景他們需要的是數(shù)據(jù)的下界。
比如,在排序策略中,當(dāng)我們希望給長尾內(nèi)容更多流量的時候,可以使用上界,當(dāng)我們希望突出熱門內(nèi)容時,可以使用下界。
比如,在廣告策略中,當(dāng)我們希望關(guān)閉CPA過高的廣告時,我們應(yīng)該用下界,當(dāng)我們希望關(guān)閉點擊率更低的廣告時,應(yīng)該用點擊率的上界。因為我們需要給新的廣告更多的試探空間。
當(dāng)然威爾遜區(qū)間算法的本質(zhì)是提供了一個將大數(shù)據(jù)量內(nèi)容和小數(shù)據(jù)量內(nèi)容一起對照的方法,應(yīng)用范圍也不止于此,而“小數(shù)據(jù)下不置信”是大量策略系統(tǒng)的共同問題。
本期內(nèi)容到此結(jié)束,下一期我們聊評分算法的另一個場景,服務(wù)分。
#專欄作家#
潘一鳴,公眾號:產(chǎn)品邏輯之美,人人都是產(chǎn)品經(jīng)理專欄作家。畢業(yè)于清華大學(xué),暢銷書《產(chǎn)品邏輯之美》作者;先后在多家互聯(lián)網(wǎng)公司從事產(chǎn)品經(jīng)理工作,有很多復(fù)雜系統(tǒng)的構(gòu)建實踐經(jīng)驗。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
有個疑問,初始無數(shù)據(jù)的情況下,是手動設(shè)定打分還是依照算法?
公式?jīng)]有看懂
您好,請教一下如何給填報情況評分
KPI1:填報數(shù)量大于150為達(dá)標(biāo),大于200為優(yōu)秀;
KPI2:填報數(shù)量大于60為達(dá)標(biāo),大于80為優(yōu)秀;
KPI3:填報數(shù)量大于20%為達(dá)標(biāo),大于25%為優(yōu)秀;
最后統(tǒng)計填報情況并對填報機(jī)構(gòu)評分排序
作為一個統(tǒng)計學(xué)專業(yè)的畢業(yè)生,11年過去了,全忘了 ?