作為產品,你需要了解這些技術知識
小奈:表哥,為什么瀏覽器好像什么都知道的?我只是剛剛搜了下感冒怎么治,現(xiàn)在就彈出xx醫(yī)院廣告了。
大仁:當xx公司有了海量的數(shù)據(jù),再根據(jù)這些數(shù)據(jù)進行精準營銷(廣告),他們每年都可以掙一大筆廣告費。
大仁:廣告雖然令人厭惡,但是數(shù)據(jù)推薦還是必要的,尤其是在信息大爆炸的時代,讓信息更精準的出現(xiàn)在你手里。
DBA
小奈:表哥,公司最近好像在招聘DBA(數(shù)據(jù)庫管理員),后端工程師不就可以管理數(shù)據(jù)庫的么?數(shù)據(jù)庫和后端有什么區(qū)別?數(shù)據(jù)庫又是什么呢?
大仁:看來你們公司是大公司喔,一般小公司沒有dba的崗位。
其實我們常說的后端工程師,他們也設計和管理數(shù)據(jù)庫。但是如果數(shù)據(jù)到了一定量級,數(shù)據(jù)庫性能調優(yōu)、安全穩(wěn)定就需要專業(yè)的dba。
數(shù)據(jù)庫是什么?
大數(shù)據(jù)背后的一塊塊基石,則是數(shù)據(jù)庫。
數(shù)據(jù)庫背后有好多故事,你可能不知道數(shù)據(jù)庫,但是最近火的不行區(qū)塊鏈,其實就是去中心化的分布式數(shù)據(jù)庫。
說完高大上的區(qū)塊鏈,我們開始回溯數(shù)據(jù)庫的發(fā)展吧:
文件&文件系統(tǒng)
最開始是計算機的出現(xiàn),那時候沒有硬盤,只有內存,數(shù)據(jù)不會進行存儲,一般只用于科技計算,計算完輸出結果后,程序就撤出內存了。
后來技術發(fā)展,才有了硬盤、文件,在文件的基礎上有了文件系統(tǒng)。文件系統(tǒng)可以滿足數(shù)據(jù)存放和查找的需求。
數(shù)據(jù)庫的誕生
文件系統(tǒng)作為數(shù)據(jù)庫用了一段時間,當數(shù)據(jù)越來越多、規(guī)模越來越大后,數(shù)據(jù)查找特別麻煩。數(shù)據(jù)很容易重復(冗余)、占用存儲空間多,數(shù)據(jù)結構化被迫推進。
文件系統(tǒng)和數(shù)據(jù)庫的主要區(qū)別是?
簡單舉個例子,如圖所示。
我們理解的數(shù)據(jù)和文件比較接近,例如文件1存放了玩具狗的數(shù)據(jù),文件2存放了系鈴鐺的狗的數(shù)據(jù)。但其實玩具狗、玩具貓都是玩具,鈴鐺和玩具是可以拆分的。
數(shù)據(jù)庫的結構化(玩具庫架子),讓數(shù)據(jù)不會重復,玩具狗可以系鈴鐺,也可以不系。
關系型數(shù)據(jù)庫
數(shù)據(jù)庫出現(xiàn)后,慢慢演化出關系型數(shù)據(jù)庫,之后又演化成非關系型數(shù)據(jù)庫。
我們首先介紹關系型數(shù)據(jù)庫,什么是關系型數(shù)據(jù)庫?
關系數(shù)據(jù)就是指數(shù)據(jù)之間是有關系的。像是上圖中系鈴鐺的玩具狗,鈴鐺是屬于(系在)玩具狗,那我把鈴鐺取下來放到玩具貓上可以么?可以,那關系就變了,鈴鐺在數(shù)據(jù)庫里的記錄變更為屬于貓。
其實數(shù)據(jù)庫有個(存儲的關系規(guī)范)數(shù)據(jù)庫范式,第一范式到到第五范式。玩具狗與鈴鐺的拆分只是滿足了第一范式,越往下數(shù)據(jù)的壓縮率就越高,相應的存儲也會變慢(需要關系范式驗證)。
數(shù)據(jù)庫的除了是結構化存儲、它還可以共享給程序訪問。文件系統(tǒng)時候,程序a讀取文件1(小明的玩具),數(shù)據(jù)庫時代,所有程序只要有權限就可以訪問所有數(shù)據(jù)庫里的數(shù)據(jù)(大家的玩具共享)。
數(shù)據(jù)表長什么樣
數(shù)據(jù):例如玩具狗,他的各個字段:玩具名稱、是否有耳朵、多少條腿等等,玩具狗的所有信息算是一條數(shù)據(jù)。
數(shù)據(jù)表:玩具表就像一個excel表格,里面存了所有玩具的數(shù)據(jù)。
手機數(shù)據(jù)庫:sqlite
網(wǎng)頁和app的區(qū)別大家也都知道了,手機里有數(shù)據(jù)庫,手機app的數(shù)據(jù)庫和沙河一樣,每個app都有自己倉庫。
redis、memcache
不知道大家看視頻的時候,是否喜歡快進,或者回放。
視頻文件=幾十萬張圖片(簡單約等于),圖片文件非常多。如果經常要重復從數(shù)據(jù)庫中取出相同的數(shù)據(jù),這種重復極大的增加了數(shù)據(jù)庫負載。緩存是解決這個問題的好辦法。
瀏覽器中的雖然已經可以實現(xiàn)對頁面局部進行緩存,但還是不夠靈活,主要是視頻文件。此時Memcached或許是你想要的,當你看一個視頻來回拉動進度的時候,本地緩存很重要。
nosql
隨著經濟發(fā)展,村里小孩越來越多了(云計算的到來),玩具廠每年生產的玩具也多了。一個玩具庫(單機)不夠用了,所以要多建立幾個公共玩具庫,玩具存放在不同的玩具庫(多臺計算機)。
為了滿足數(shù)據(jù)爆發(fā)式增長的存儲需求,數(shù)據(jù)庫部署在多臺計算機上,也就是分布式數(shù)據(jù)庫,但是分布式和單機不同的地方在于關系嚴格性上,分布式要求數(shù)據(jù)關系不那么嚴格(半結構化),主要是擴容和大數(shù)據(jù)存儲,所以Nosql(not only sql)就誕生了。
常見的Nosql有mongodb、hbase等,這里以mongodb為例。
數(shù)據(jù)庫連接
var mongoose = require(‘mongoose’)
var db = ‘mongodb://127.0.0.1/test’;
mongoose.connect(db, {
server: { poolSize: 20 }
}, function (err) {
if (err) {
console.log(‘connect to %s error:’, db, err.message)
process.exit(1)
} else {
console.log(‘connected’)
}
})
增刪改查
var UserSchema = new Schema({
name: { type: String},
phone: { type: Number}
})
var User = mongoose.model(‘User’, UserSchema);
//create 增加
var user1 = new User();
user1.name = ‘jack1’;
user1.phone = 123456;
user1.save(function (err) {
if (err) {
console.log(err.message)
}
})
var user2 = new User();
user2.name = ‘jack2’;
user2.phone = 234567;
user2.save(function (err) {
if (err) {
console.log(err.message)
}
})
//查找
User.find(function (err, users) {
if (err) {
return console.error(err)
}else {
console.log(users)
}
})
分布式vs集群
很多人可能會混淆分布式和集群的概念,分布式更像是業(yè)務拆分到不同服務器上,集群則是多臺服務器一起處理同個業(yè)務。比較復雜,后續(xù)再解釋。
數(shù)據(jù)庫圖鑒
目前市面上常見的數(shù)據(jù)庫品牌,主要有關系型和非關系型數(shù)據(jù)庫兩種。計算機世界發(fā)展快速,數(shù)據(jù)庫就像一個大生態(tài),愈發(fā)多態(tài)化多樣化。
- 關系型:Oracle、mysql、Postgresql
- nosql: mongodb、hbase
區(qū)塊鏈:去中心化的分布式數(shù)據(jù)庫
回到區(qū)塊鏈,大數(shù)據(jù)時代無隱私,區(qū)塊鏈的去中心化能否保護隱私?
首先得介紹下去中心化,那么中心化又是什么?中心化就是我們常見的通訊模型,客戶端需要以服務器獲取數(shù)據(jù)(服務端和數(shù)據(jù)庫交互),上次我們也講過 輸入url 后發(fā)生的事情,如果兩個客戶端之間互相知道彼此的地址,他們可以直接建立通訊。
p2p技術常用于資源共享、音視頻等。
區(qū)塊鏈本質上是一種去中心化的分布式數(shù)據(jù)庫,該數(shù)據(jù)庫是由一串使用密碼學方法產生的數(shù)據(jù)區(qū)塊按時間順序有序連接而成,每個數(shù)據(jù)塊中包含了一段時間內的全網(wǎng)產生的無法篡改的數(shù)據(jù)記錄信息。
區(qū)塊鏈技術讓我們的隱私得到了一定程度上的保護。
失控
最后引用下凱文*凱里在《失控》里的一段話:
沒有強制性的中心控制,次級單位具有資質的性質:次級單位之間批次高度連接,點對點間的影響通過網(wǎng)絡形成了非線性因果關系。
計算機的高速發(fā)展,數(shù)據(jù)庫不斷進化,大數(shù)據(jù)越來越精確化,越來越智能,但用戶也需要隱私,區(qū)塊鏈這種去中心化、自組織的形態(tài)會不會成為新趨勢?··
競品數(shù)據(jù)如何找?
小奈:表哥,競品分析、競品數(shù)據(jù)如何找?
大仁:你可以找你們的數(shù)據(jù)產品經理啊,常見數(shù)據(jù)來源如下:
- 搜索指數(shù)
- TBI騰訊指數(shù)?http://tbi.tencent.com/
- 微信指數(shù)
- 360指數(shù)?https://index.so.com/
- 搜狗指數(shù)?http://index.sogou.com/
- 百度指數(shù)?http://index.baidu.com/
- Questmobile?http://www.questmobile.com.cn/blog.html
- 易觀千帆?https://qianfan.analysys.cn/
- 199it?http://www.199it.com/
艾瑞咨詢?http://data.iresearch.com.cn/
- TalkingData?http://mi.talkingdata.com/
- 七麥?https://www.qimai.cn/
- 酷傳?http://www.kuchuan.com/
- 上市公司的財報?http://www.hkexnews.hk/https://www.sec.gov/
小奈:我們公司沒有數(shù)據(jù)產品經理喔。
大仁:這,那你也可以自己試試啊。
小奈:我不會啊,我現(xiàn)在想要一個xx無人貨架的城市分布圖,要怎么做?
大仁:我示范下,xx無人貨架官網(wǎng)好像有城市bd招聘信息喔,我把這些城市都錄入到excel,再生成經緯度,然后就可以了,看下效果。
(可用python也可用數(shù)據(jù)分析平臺)
商家、顧客和優(yōu)惠券
小奈:數(shù)據(jù)產品經理好像挺神奇的耶。
大仁:是啊,你們公司是電商的對吧,假如你們老板要你們提高凈利潤(現(xiàn)有系統(tǒng)基礎上),你們會怎么做?
來看下數(shù)據(jù)產品經理怎么做:
假設一瓶牛奶成本3元,定價6元時,50人會接受此價格。定價10元時,有30人會接受此價格,前者利潤為(6-3)×50=150元,后者利潤為(10-3)×30=210元。
但商家不想放棄另外20個支付意愿較低的消費者,于是決定用4元優(yōu)惠券來吸引他們,同時對剩下那30個對價格不敏感的消費者依然維持10元的原價銷售。
通過用戶畫像、優(yōu)惠券來提高銷售利潤,這就是數(shù)據(jù)產品經理干的事之一,如何才能做到呢?
首先得有自己的BI系統(tǒng),或者說得有用戶畫像。
什么是用戶畫像呢?
有了用戶畫像,知道哪些用戶對價格不敏感,哪些用戶不反感車的廣告,再進行推送,大大提高轉化率,凈利潤得到有效增長。
那么用戶標簽體系該如何搭建?
業(yè)務需求促進標簽體系建立,具體從老板戰(zhàn)略目標、功能、業(yè)務。
數(shù)據(jù)產品經理需要結合業(yè)務建立標簽體系,背后真正的分析工作則由數(shù)據(jù)分析師來,數(shù)據(jù)分析該如何入門呢?
數(shù)據(jù)分析
數(shù)據(jù)分析可由數(shù)據(jù)產品經理+數(shù)據(jù)分析師一起完成,也可以數(shù)據(jù)產品經理+數(shù)據(jù)分析平臺(bdp、神策等)。數(shù)據(jù)分析該如何入門和培養(yǎng)意識呢?
數(shù)據(jù)分析基礎
想學習數(shù)據(jù)分析的同學不妨先從Excel開始,從熟悉excel的函數(shù)開始,掌握一些統(tǒng)計學基礎。
- 均值:平均值, =AVERAGE(B2:B19),B2:B19為數(shù)據(jù)范圍;
- 中位數(shù):先將數(shù)據(jù)升序排列,若為數(shù)據(jù)個數(shù)為單數(shù),則為中間那個數(shù),若為偶數(shù),則為取中間兩個數(shù)據(jù)的平均值,=MEDIAN(B2:B19);
- 眾數(shù):出現(xiàn)次數(shù)最多的數(shù),=MODE(B2:B19);
- 方差:用來計算每一個變量(觀察值)與總體均數(shù)之間的差異,=VAR(B2:B19)
- 標準差:方差開根號后為標準差,用于評估數(shù)據(jù)穩(wěn)定性,=STDEV.S(B2:B19)
- 標準誤差:是描述對應的樣本統(tǒng)計量抽樣分布的離散程度及衡量對應樣本統(tǒng)計量抽樣誤差,=STDEV(B2:B19)/SQRT(COUNTA(B2:B19))
- 最大值:=MAX(B2:B19)
- 最小值: =MIN(B2:B19)
- 峰度:=KURT(B2:B19)
- 偏度:=SKEW(B2:B19)
心理學
數(shù)據(jù)分析要結合心理。
大數(shù)據(jù)“殺熟”?
微博網(wǎng)友“x師傅”講述,他經常通過某旅行服務網(wǎng)站訂某個特定價格酒店的房間,長年價格在380元到400元左右。
偶然一次,通過前臺他了解到,淡季的價格在300元上下。他用朋友的賬號查詢后發(fā)現(xiàn),果然是300元;但用自己的賬號去查,還是380元。
相信不同的人看完故事有不同的理解,從數(shù)據(jù)運營角度 可以看出用戶分層、用戶畫像(標簽化)、消費心理分析(優(yōu)惠券能給用戶占便宜的錯覺)等的重要性;從用戶角度可以發(fā)現(xiàn)生活處處有套路。
在我看來,技術的發(fā)展終會回歸到善與惡的哲學問題。
作者:Jack,新零售數(shù)據(jù)PM,公眾號:產品經理的技術課堂
本文由 @Jack 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載
題圖來自 Unsplash ,基于 CC0 協(xié)議
贊??!
又更新啦,數(shù)據(jù)殺熟深有體會呀,某打車軟件,不同手機下單價格居然不一樣
是的
統(tǒng)計學基礎
關注微信公眾號(打少了),回復“統(tǒng)計學基礎”可獲得excel原文件
回復“統(tǒng)計學基礎”可獲得excel原文件
統(tǒng)計學基礎
統(tǒng)計學基礎
關注微信公眾號(打少了),回復“統(tǒng)計學基礎”可獲得excel原文件
你好??,搜索公眾號沒有找到「產品經理的技術課堂」這個公眾號,是改名了么?
666