難道線(xiàn)下數(shù)據(jù)只有熱力圖這個(gè)用途么?
線(xiàn)下數(shù)據(jù)不光只是通過(guò)熱力圖來(lái)看,重點(diǎn)是如何用這些數(shù)據(jù),構(gòu)建人群畫(huà)像,獲取潛客,來(lái)達(dá)精準(zhǔn)化營(yíng)銷(xiāo),資源配置,估算人口,招商引資等。
背景
每個(gè)做數(shù)據(jù)分析的人員應(yīng)該嘗試過(guò)熱力圖,熱力圖包含線(xiàn)上&線(xiàn)下,線(xiàn)上的熱力圖其實(shí)根據(jù)用戶(hù)點(diǎn)擊次數(shù)來(lái)繪制,其目的就是給網(wǎng)站運(yùn)營(yíng)&移動(dòng)運(yùn)營(yíng)產(chǎn)品經(jīng)理等提供對(duì)頁(yè)面按鈕&功能參考,從而得知用戶(hù)興趣傾向,精簡(jiǎn)按鈕等。
而線(xiàn)下的熱力圖又叫等值線(xiàn)地圖(choropleth map),以不同顏色表示不同的人口密度、天氣情況、人均收入、或者社會(huì)價(jià)值等。我們的現(xiàn)實(shí)生活中用的最多的是反應(yīng)人口密度的線(xiàn)下熱力圖,但是我們通常也往往遇到一個(gè)問(wèn)題,這些漂亮的圖有啥用?同時(shí),也會(huì)引起我們的反思,難道線(xiàn)下數(shù)據(jù)只有熱力圖這個(gè)用途么?
線(xiàn)下數(shù)據(jù)的數(shù)據(jù)源
先說(shuō)用途之前,我們先說(shuō)說(shuō)人口密度數(shù)據(jù)從哪來(lái),線(xiàn)下熱力圖的核心就是獲?。?strong>經(jīng)緯度;地址。
線(xiàn)下熱力圖的數(shù)據(jù)可以從幾個(gè)方面來(lái)說(shuō):
1、IP 地址
IP可以通過(guò)各種網(wǎng)段來(lái)判斷地址,目前IPV4協(xié)議使用的是32位地址,約有42億個(gè)地址,全球共用,中國(guó)約分配到6000多萬(wàn)個(gè)IP地址,同理各個(gè)省、各個(gè)地區(qū)的地址段也不一樣,因此可以從地址段ip數(shù)判斷用戶(hù)密度。
但是,現(xiàn)在大部分ip地址是動(dòng)態(tài)ip,如果用ip地址打比方是門(mén)牌號(hào)的話(huà),動(dòng)態(tài)ip地址就是反應(yīng)此用戶(hù)經(jīng)常搬家,門(mén)牌號(hào)不固定,這樣不能精準(zhǔn)定位人群以及確定用戶(hù)的活動(dòng)范圍。
所以,IP地址通常定位的數(shù)據(jù)范圍是城市、省。
2、GPS
GPS全球衛(wèi)星定位導(dǎo)航系統(tǒng),常用的設(shè)備中其他蜂窩電話(huà)網(wǎng)絡(luò)如GSM/GPRS也有類(lèi)似自定位技術(shù)。
但是一般而言,GPS會(huì)有很多問(wèn)題:
- 需要開(kāi)啟定位功能的終端或者APP。
- GPS定位衛(wèi)星的標(biāo)準(zhǔn)鐘時(shí)間不統(tǒng)一,致使在計(jì)算客戶(hù)端到相應(yīng)衛(wèi)星的距離時(shí)有誤差。
- 運(yùn)動(dòng)狀態(tài),GPS信號(hào)頻繁變化。
3、WIFI
其原理就是用AP(路由)接收Beacon,或者發(fā)送請(qǐng)求幀(probe request)。
- 被動(dòng)掃描:就是我們說(shuō)的wifi 探針,原理就是通過(guò)安裝在特定的路由,通過(guò)握手協(xié)議將手機(jī)mac地址收集。
- 自動(dòng)掃描:手機(jī)不定時(shí)會(huì)發(fā)送請(qǐng)求收集wifi信號(hào),同樣也是握手協(xié)議,但是我們知道ssid和bssid,但是不知道他們的對(duì)應(yīng)關(guān)系(ssid 可以理解路由器名稱(chēng);bssid其實(shí)就是路由器的mac地址)因此很多公司會(huì)派出很多人力去各大地方用自己手機(jī)探測(cè)wifi去尋找bssid。
同時(shí),不管主動(dòng)掃描、被動(dòng)掃描,wifi信號(hào)強(qiáng)弱都會(huì)被同一個(gè)手機(jī)握手協(xié)議去收集(即穿墻技術(shù)),只能通過(guò)規(guī)則,時(shí)長(zhǎng)等來(lái)判斷此設(shè)備到底停留在具體位置。
再者,由于iphone ios8 以上,會(huì)發(fā)送假的mac地址,因此,不能只通過(guò)握手協(xié)議來(lái)判斷,所以wifi確定的大部分設(shè)備系統(tǒng)為安卓。
線(xiàn)下數(shù)據(jù)源其實(shí)對(duì)后期數(shù)據(jù)用途的理解起到一定作用,那么我們這就聊聊線(xiàn)下數(shù)據(jù)應(yīng)該怎么使用。
線(xiàn)下數(shù)據(jù)用途
用途1:估算人口,合理配置資源
我們常用的線(xiàn)下數(shù)據(jù)是反應(yīng)人口比例密度,來(lái)估算某處的人流量,來(lái)提供線(xiàn)下資源配置建議。
分析步驟如下:
案例1
獲取IP定位分析城市:
例如某金融機(jī)構(gòu),根據(jù)他們手機(jī)數(shù)據(jù)IP來(lái)源查詢(xún)到位于深圳的客戶(hù)最多,因此想重點(diǎn)探查下深圳現(xiàn)有網(wǎng)點(diǎn)和人流密度差異,即想查看某處周?chē)肆髅芏仁欠襁^(guò)于稀疏、集中而應(yīng)該減少、增加網(wǎng)點(diǎn),支持業(yè)務(wù)需求。
同時(shí),通過(guò)對(duì)熱力圖采樣的人流數(shù)據(jù),和實(shí)際人口統(tǒng)計(jì)的人數(shù),估算某地點(diǎn)的人數(shù),與實(shí)際kpi核對(duì)是否達(dá)到設(shè)置網(wǎng)點(diǎn)的承載能力。
于是,線(xiàn)下數(shù)據(jù)用途之一觀(guān)察熱力圖,估算人口(見(jiàn)下圖),我們可以根據(jù)估算的用戶(hù)數(shù)增減網(wǎng)點(diǎn)配比。
當(dāng)然這里是數(shù)值是用手機(jī)的GPS數(shù)據(jù)來(lái)反應(yīng)人口密度,數(shù)值還可以用發(fā)聲用戶(hù)量,人口屬性(男女),年齡段最多人數(shù)比例等,或者app類(lèi)型數(shù)據(jù)等來(lái)反映,其目的是要解決實(shí)際業(yè)務(wù)和線(xiàn)下數(shù)據(jù)問(wèn)題,這里不贅述,歡迎討論。
繪制線(xiàn)下熱力圖&增加網(wǎng)點(diǎn)分布:
統(tǒng)計(jì)時(shí)間:15年7月1-7月6日。
統(tǒng)計(jì)口徑:在統(tǒng)計(jì)時(shí)間內(nèi)打開(kāi)此金融機(jī)構(gòu)app并開(kāi)啟定位功能的設(shè)備獲取的經(jīng)緯度。
分析步驟:繪制基于設(shè)備熱力圖后,增加此金融機(jī)構(gòu)網(wǎng)點(diǎn)分布。
分析目的:估算的用戶(hù)數(shù)增減網(wǎng)點(diǎn)配比。
分析結(jié)論:
從圖中可以看到編號(hào)9、10、13附近,應(yīng)該增設(shè)網(wǎng)點(diǎn)、而在64、70、37附近應(yīng)該減少網(wǎng)點(diǎn)。
案例2:根據(jù)工作日VS周末的不同時(shí)間,來(lái)估算人口數(shù)量
下圖占比為抽樣數(shù)據(jù)中指定時(shí)間內(nèi)出現(xiàn)在特定地點(diǎn)的流量占比。借助流量占比,結(jié)合深圳人口,估算以上地區(qū)的流量。下圖工作日的設(shè)備密度大于周末,如工作日海岸城在下午和晚上密度較大,周末則選擇18點(diǎn)后去海岸城。
那么,在配置網(wǎng)點(diǎn)時(shí)候可考慮周末在海岸城地區(qū)多延長(zhǎng)運(yùn)營(yíng)時(shí)間。
用途2:線(xiàn)下人群聚類(lèi),構(gòu)造用戶(hù)畫(huà)像
用途1學(xué)會(huì)了看熱力圖,如果我們想了解某個(gè)地點(diǎn)的人群畫(huà)像,一般情況下是通過(guò)圍欄圈定人群,在根據(jù)用戶(hù)其他屬性做分析得到,此處的數(shù)據(jù)一般互聯(lián)網(wǎng)公司線(xiàn)上屬性都可以收集到,就可以刻畫(huà)出來(lái)。(此步驟本文不做重點(diǎn)分析)
但是我們想多維度的了解用戶(hù),給用戶(hù)分類(lèi),標(biāo)簽客戶(hù),精準(zhǔn)化營(yíng)銷(xiāo),這時(shí)候就需要做聚類(lèi)。
分析步驟如下:
數(shù)據(jù)獲取&數(shù)據(jù)加工:
案例3:某商業(yè)地產(chǎn)客戶(hù)想了解用戶(hù)線(xiàn)下訪(fǎng)問(wèn)店鋪情況,在精準(zhǔn)營(yíng)銷(xiāo)同時(shí),合理配置店鋪資源。
數(shù)據(jù)說(shuō)明:
- 以某商業(yè)地產(chǎn)篩選為目標(biāo)客戶(hù),在為期一周內(nèi)出現(xiàn)在商場(chǎng)的用戶(hù)。
- 數(shù)據(jù)收集根據(jù)wifi探針?lè)绞?,用訪(fǎng)問(wèn)手機(jī)設(shè)備來(lái)假設(shè)人流密度情況。
- 篩選規(guī)則為訪(fǎng)問(wèn)時(shí)間大于半小時(shí),同時(shí)排除24點(diǎn)到早6點(diǎn)訪(fǎng)問(wèn)的客戶(hù)(由于wifi探針缺點(diǎn),防止將員工作為客戶(hù),同時(shí)由于wifi的穿墻技術(shù)防止用戶(hù)沒(méi)到店鋪認(rèn)為訪(fǎng)問(wèn)店鋪,故定制篩選規(guī)則)。
在統(tǒng)計(jì)周期內(nèi),若該客戶(hù)訪(fǎng)問(wèn)店鋪滿(mǎn)足篩選規(guī)則,則標(biāo)記1,否則為0,具體變量(即店鋪類(lèi)型)如下表:
客戶(hù)分群:
根據(jù)建模結(jié)果,因此將客戶(hù)分為下圖四種類(lèi)型,左圖表示用戶(hù)對(duì)品類(lèi)傾向性,取值范圍在0-1,傾向性由弱變強(qiáng)。例如人群1的特點(diǎn)是美體美發(fā)相對(duì)于人群II-IV數(shù)值偏弱,同時(shí)對(duì)比自己其他品類(lèi),例如西餐快餐,明顯表達(dá)出訪(fǎng)問(wèn)頻次少的特點(diǎn)。因此可以判斷他的性別為男性為主。同時(shí),對(duì)中餐訪(fǎng)問(wèn)的傾向性高于其他人。故給人群I定位為傳統(tǒng)生活型用戶(hù)。
由于其他人的自身特點(diǎn),按照左邊表格得出的數(shù)值,依據(jù)下圖故命名為四類(lèi)人群。
分析解讀:
我們根據(jù)聚類(lèi)了解了用戶(hù)的線(xiàn)下訪(fǎng)問(wèn)店鋪特點(diǎn),那么這些用戶(hù)線(xiàn)上特點(diǎn)是什么樣呢?我們由于抓取的是mac地址,因此可以得知用戶(hù)的設(shè)備,根據(jù)數(shù)據(jù)公司匹配,可以了解用戶(hù)的線(xiàn)上特性,例如機(jī)型、活躍設(shè)備,這樣可以結(jié)合線(xiàn)下數(shù)據(jù)&線(xiàn)上數(shù)據(jù)的打通,定制化營(yíng)銷(xiāo)。
例如: 快捷消費(fèi)型用戶(hù)偏重XX寶錢(qián)包,以及某銀行支付,那么可考慮在某寶頁(yè)面中增加此商業(yè)地產(chǎn)宣傳,增加優(yōu)惠等信息。
同時(shí),根據(jù)用戶(hù)匹配線(xiàn)上資源我們得到營(yíng)銷(xiāo)建議。
具體的聚類(lèi)方法的實(shí)現(xiàn)過(guò)程,和細(xì)節(jié)會(huì)在之后的文章中涉及到歡迎各位訂閱我的運(yùn)營(yíng)號(hào)。
用途3:線(xiàn)下圈人,預(yù)測(cè)潛客
我們現(xiàn)在了解已知客戶(hù)的人群,如何來(lái)找的潛在客戶(hù)人群,了解相似人群分布,便于我們?cè)谡猩桃Y過(guò)程中合理配置資源,比如偏愛(ài)中餐的用戶(hù)中我們通過(guò)預(yù)測(cè)得知他們?cè)诒本┙情T(mén)東分布集中,那么如果在角門(mén)東某商業(yè)地產(chǎn)多引資西餐顯然并不合理。
但是如何構(gòu)建潛在客戶(hù)呢,其實(shí),這里面需要運(yùn)用預(yù)測(cè)模型,常用的是邏輯回歸,分為正負(fù)樣本,其中某一類(lèi)變量是線(xiàn)下地理位置,在對(duì)潛客進(jìn)行預(yù)測(cè)打分。
但是大部分公司線(xiàn)下地理位置加工只是停留在區(qū)域,并沒(méi)有歸類(lèi),例如:我們知道某處幼兒園的用戶(hù),但是我們不知道這一個(gè)省份中所有幼兒園的用戶(hù),一般來(lái)說(shuō)我們?nèi)Χㄈ巳壕褪歉鶕?jù)經(jīng)緯度來(lái)劃分,但是我們需要找尋某區(qū)域所有幼兒園附近的用戶(hù),這需要數(shù)據(jù)公司人為歸類(lèi),同時(shí)利用geohash技術(shù)進(jìn)行詳細(xì)規(guī)整。
下圖簡(jiǎn)版的地理位置數(shù)據(jù)加工,我們根據(jù)熱力圖情況和每時(shí)段人次,找尋人口密集的地域,例如某時(shí)間周期內(nèi),出現(xiàn)人數(shù)最多的是四川省成都青陽(yáng)區(qū),我們知道他的經(jīng)緯度(GPS獲?。瑥陌俣鹊貓D中看出附近是交通樞紐,在用geohash(精度4-6) 來(lái)圈定出現(xiàn)過(guò)此區(qū)域的人群都是在交通樞紐,這部分就是所說(shuō)的地域加工。
這個(gè)是構(gòu)建模型加工數(shù)據(jù)的變量之一,我們后續(xù)在區(qū)根據(jù)其他變量,例如線(xiàn)上屬性,手機(jī)品牌等,來(lái)構(gòu)建邏輯回歸預(yù)測(cè)人群,很多公司也叫此技術(shù)為lookalike技術(shù),但是每家公司變量加工維度,變量獲取不同,因此只能給出一個(gè)打分排序,分值高低不能說(shuō)明問(wèn)題。
最終營(yíng)銷(xiāo)建議:
小結(jié)
因此,線(xiàn)下數(shù)據(jù)不光只是通過(guò)熱力圖來(lái)看,重點(diǎn)是如何用這些數(shù)據(jù),構(gòu)建人群畫(huà)像,獲取潛客,來(lái)達(dá)精準(zhǔn)化營(yíng)銷(xiāo),資源配置,估算人口,招商引資等。但是,這些是方法,我們需要了解線(xiàn)下數(shù)據(jù)的獲取來(lái)源,以及優(yōu)缺點(diǎn),這樣我們?cè)谧鋈丝诠浪?,人群?huà)像,預(yù)測(cè)過(guò)程中才能有的放矢,取長(zhǎng)補(bǔ)短。
作者:馮大福,新人,公眾號(hào):說(shuō)說(shuō)數(shù)據(jù)分析那些事兒
本文由 @馮大福 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
中國(guó)最偉大
這句話(huà)得這么說(shuō)
您好有些問(wèn)題需要了解一下
案例3中是怎么根據(jù)建模結(jié)果,將客戶(hù)群分為4類(lèi)的?求解
哦哦
哦