LTV預(yù)估與留存曲線擬合:指數(shù)函數(shù)還是冪函數(shù)?
編輯導(dǎo)語:LTV,即用戶生命周期總價(jià)值,是運(yùn)營人員在業(yè)務(wù)過程中常接觸的指標(biāo),通過對(duì)LTV的預(yù)估,運(yùn)營人員可以為后續(xù)決策做好準(zhǔn)備。本篇文章里,作者便針對(duì)LTV預(yù)估、留存函數(shù)擬合等問題進(jìn)行了解讀,一起來看一下。
一、從LTV預(yù)估開始說起
LTV的預(yù)估,是許多業(yè)務(wù)UE模型和增長模型的起點(diǎn):
其中,用戶生命周期又可以用累加的留存率來計(jì)算:
不過,這里面使用的留存率卻未必是實(shí)際發(fā)生的歷史數(shù)據(jù)。
因?yàn)槲覀冏鰶Q策時(shí)往往等不了那么長的時(shí)間,所以我們一般使用的是根據(jù)前面一小段時(shí)間的數(shù)據(jù)擬合出來的留存函數(shù)R(t)。
那留存函數(shù)應(yīng)該怎樣擬合呢?
二、留存函數(shù)擬合
許多文章或資料會(huì)推薦這么一個(gè)方法:
- 把過去的次日、3日、7日、14日、30日等留存率記錄在Excel中,畫出來一個(gè)散點(diǎn)圖;
- 然后點(diǎn)擊圖上的數(shù)據(jù)點(diǎn),右鍵選擇“添加趨勢線”,這時(shí)右方就會(huì)出現(xiàn)可以擬合的曲線類型(指數(shù)、線性、對(duì)數(shù)、多項(xiàng)式、乘冪、移動(dòng)平均);
- 打開顯示公式和R平方項(xiàng),在這些曲線類型和公式中,選擇R方最接近1的那個(gè)(一般是指數(shù)或乘冪),即為最終擬合得到的留存函數(shù)R(t)。
番茄小說2021.05新用戶留存率,QuestMobile
選擇R方最接近1,意味著找到了擬合程度最高的函數(shù)作為留存函數(shù)R(t),接下來就可以回到LTV預(yù)估的主線去了。
不過這里有個(gè)小問題,卻似乎鮮有人討論過:為什么是指數(shù)或乘冪這兩個(gè)函數(shù)?如果擬合的結(jié)果是這兩個(gè)函數(shù)中的一個(gè),意味著什么?它倆最核心的差異和聯(lián)系在哪?
三、兩個(gè)函數(shù)的差異
這兩個(gè)函數(shù)有什么差異呢?如果光從函數(shù)本身看,指數(shù)函數(shù)和冪函數(shù)的核心差異在于衰減的速度。指數(shù)函數(shù)的表達(dá)式為:
冪函數(shù)的表達(dá)式為:
根據(jù)表達(dá)式我們可以推導(dǎo)出,如果以3天為一個(gè)周期,對(duì)于指數(shù)函數(shù)來說,留存率每三天會(huì)以同樣的速度衰減:
而對(duì)于冪函數(shù)來說,留存率衰減的速度會(huì)逐漸放緩,下一個(gè)同比例衰減周期會(huì)拉長到6天,即上一個(gè)周期的兩倍:
我們總是希望留存率的衰減能夠慢一些,所以相比之下,擬合成冪函數(shù)是更希望看到的結(jié)果。
四、艾賓浩斯遺忘曲線
那這兩個(gè)函數(shù)有什么聯(lián)系呢?1885年,德國心理學(xué)家艾賓浩斯(H.Ebbinghaus)首次對(duì)人類的記憶進(jìn)行了定量研究,他用無意義的音節(jié)作為記憶的材料,通過記錄一段時(shí)間后被試人員對(duì)這些音節(jié)材料的記憶留存率,繪制出了這樣一個(gè)曲線:
這個(gè)曲線也被稱為艾賓浩斯遺忘曲線(或記憶曲線),可以看到通過對(duì)這個(gè)曲線進(jìn)行擬合,得到的擬合度最高的是一個(gè)冪函數(shù)。
不過后續(xù)人們的研究表明,單一的遺忘曲線實(shí)際上應(yīng)該是更接近指數(shù)函數(shù)的,結(jié)合前面提到的指數(shù)函數(shù)的性質(zhì),說明人類會(huì)以一個(gè)固定的周期等概率地遺忘大腦中的信息,是一個(gè)很符合大自然規(guī)律的現(xiàn)象。
而艾賓浩斯之所以擬合得到了冪函數(shù),是由于最初的記憶實(shí)驗(yàn),混雜了不同難度的記憶材料,這種混雜改變了遺忘曲線的指數(shù)性質(zhì)。
下面的這個(gè)例子,可以解釋這一現(xiàn)象:
圖中黃色和紫色曲線,分別代表兩種難度記憶材料的遺忘曲線,它們都是指數(shù)函數(shù)y=e^(-kt),其中k的大小不同,代表難度不同;
而黑色的散點(diǎn),則為兩個(gè)函數(shù)的平均值(或可泛化為線性組合),通過對(duì)這些散點(diǎn)進(jìn)行擬合,會(huì)發(fā)現(xiàn)一個(gè)有趣的事實(shí):
某些情況下,對(duì)兩個(gè)指數(shù)函數(shù)線性組合后的曲線,擬合度更高的(即R方更大的),卻不再是指數(shù)函數(shù)了,而是冪函數(shù)!
這個(gè)有意思的現(xiàn)象,各位有興趣的話,可以自行驗(yàn)證一下。
五、遺忘曲線與留存曲線
關(guān)于遺忘曲線的結(jié)論,對(duì)我們理解留存曲線有什么幫助嗎?
事實(shí)上我們?cè)缇桶l(fā)現(xiàn),這兩個(gè)曲線驚人地一致。
如果把拉新激活的動(dòng)作視為最初始的記憶訓(xùn)練,那么在后續(xù)的時(shí)間里,如果沒有再次激活,用戶就會(huì)以一定的概率,自然而然地遺忘我們的App,表現(xiàn)就和遺忘曲線是一樣的。
為了讓用戶回到我們的App,提升用戶留存率,我們通過各種push召回它們,這也和關(guān)于記憶的研究中,定期復(fù)習(xí)的方法如出一轍。
同時(shí),和混雜材料帶來的遺忘曲線類似,絕大多數(shù)功能豐富的成熟應(yīng)用,留存曲線都應(yīng)該是衰減程度更慢的冪函數(shù)。
事實(shí)上也確實(shí)如此,包括前面提到的番茄小說例子在內(nèi),我從QuestMobile驗(yàn)證了其他一些常見App,以及手頭有的一些內(nèi)部數(shù)據(jù),它們的留存曲線的確都是擬合成了冪函數(shù):
番茄小說、知乎與陌陌2021.05新用戶留存數(shù)據(jù),QuestMobile
六、對(duì)數(shù)函數(shù)與其他LTV預(yù)估方法
最后再補(bǔ)充兩個(gè)點(diǎn)。
在前面的趨勢線擬合中,有一個(gè)對(duì)數(shù)函數(shù)可能會(huì)是迷惑選項(xiàng)。
對(duì)數(shù)函數(shù)的表達(dá)式是:
隨著t的增長,對(duì)數(shù)函數(shù)計(jì)算得到的結(jié)果很可能會(huì)小于0,而不是像指數(shù)函數(shù)和冪函數(shù)一樣始終保持大于0的結(jié)果。
小于0的留存率是沒有意義的,因此如果最優(yōu)擬合的結(jié)果是對(duì)數(shù)函數(shù),更可能的情況是巧合或者樣本量太小,對(duì)數(shù)函數(shù)在這個(gè)場景下本身沒有合理的物理意義。
不妨在指數(shù)函數(shù)或者冪函數(shù)中選擇一個(gè),他們的擬合度離最優(yōu)擬合應(yīng)該差不了多少。
而對(duì)于最開始提到的LTV預(yù)估公式:
需要說明的是,這里面隱藏了一個(gè)假設(shè):ARPU值恒定不變,是個(gè)常數(shù)。
但在現(xiàn)實(shí)情況下,這樣的假設(shè)往往會(huì)帶來一些誤差,因?yàn)殡S著留存時(shí)間增加,這部分用戶的ARPU總是會(huì)隨之有所變化。
一種調(diào)整的方法是對(duì)ARPU同樣進(jìn)行預(yù)估,將公式改造為:
不過ARPU的變化規(guī)律可能很難找,或者壓根就沒有像留存曲線這樣簡單清晰的規(guī)律。
因此另一種調(diào)整方法是不做拆分,用更多樣本數(shù)據(jù)和特征數(shù)據(jù),整體地對(duì)用戶貢獻(xiàn)價(jià)值進(jìn)行函數(shù)擬合預(yù)估:
這樣的方法需要足夠多的樣本,本身也更適合需要精細(xì)化的運(yùn)營場景,這里就不再展開了。
參考資料:
[1] https://supermemo.guru/wiki/Exponential_nature_of_forgetting
[2] https://supermemo.guru/wiki/Forgetting_curve
作者:青十五;公眾號(hào):青十五,新書《策略產(chǎn)品經(jīng)理:模型與方法論》作者
本文由 @青十五 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
mk
很有意思~