聚類算法簡析(一):樸素貝葉斯算法的場景案例

吳若溪
2 評論 4462 瀏覽 14 收藏 6 分鐘
🔗 B端产品经理需要进行售前演示、方案定制、合同签订等,而C端产品经理需要进行活动策划、内容运营、用户激励等

本文作者通過一些場景案例,帶領(lǐng)大家了解一下樸素貝葉斯算法作為聚類算法中的一員,如何來區(qū)分各類數(shù)組。

通過一組參數(shù)模型來區(qū)分互斥群組中的個體十分常見,我們可以使用樸素貝葉斯分析來應(yīng)用于這種場景,取決于模型的相似矩陣算法常常運(yùn)用在估算決策論框架的矩陣中。

一些已經(jīng)存在的聚類分析技巧是從一些特定的有限制的場景中提取出來的,這些結(jié)論很好地應(yīng)用于區(qū)分兩類不同數(shù)組之間的比較關(guān)系。

本文我們通過一些場景案例,來了解一下樸素貝葉斯算法作為聚類算法中的一員,如何來區(qū)分各類數(shù)組。

簡介

最近幾年,各種各樣的分類算法在統(tǒng)計學(xué)著作中被提出。

回溯近代理論中涉及的各類著作,1971年科馬克、1973年安德伯、1974年埃弗里特、1975年哈迪更均有涉獵。然后,大部分的算法均有限制,因?yàn)檫@些算法只能在某些特定場景中才能應(yīng)用。

烏爾夫(1970)提出假設(shè),觀察到密度函數(shù)中具有一個有限的參數(shù)矩陣。然而,一旦參數(shù)矩陣中的組件數(shù)量不確定,則會出現(xiàn)問題。

沃爾夫認(rèn)為這個矩陣很有可能存在一種概率,這種假說即為:當(dāng)一個組件和另外兩個組件矩陣出現(xiàn)互斥時會產(chǎn)生分離。

由此我們可以將聚類分析重新構(gòu)建一種模型,觀察對象的參數(shù)形成互斥群組,并且在樸素貝葉斯的場景中,我們是允許存在未定義組件的。

常用理論模型

定義X1……Xn為p維空間觀察物。

我們定義“真群組”向量,定義為:g=(g1……gn),gk=i表示系數(shù)k由系數(shù)i的群組產(chǎn)生。

這樣就會出現(xiàn)m種可能群組,并且m可能是未知數(shù),主要的問題就是定義特殊值g。

如已知m,g和一個參數(shù)向量θ,我們假定X組是獨(dú)立于密度函數(shù)Xk,設(shè)為hg(xk|θ),這里的x和θ是已知函數(shù)。這個模型在1971年由斯科特和西蒙斯提出。

我們采用先驗(yàn)密度的模型來定義未知數(shù)量:

PM,G,θ(m,g,θ)=pM(m)pG|M(g|m)pθ|G.M(θ|g,m)

模型兩選一的特性,讓我們來引入一個參數(shù)向量λ

0<λ1……λm<1,Σλi=1。在某些應(yīng)用中,針對這些參數(shù)我們需要估算g,于是演變?yōu)榉匠蹋?/p>

通過這類分析模型的演變,算法的遞推,我們采用概率論結(jié)合分布矩陣來區(qū)分?jǐn)?shù)據(jù)聚類的不同分布中心。

技術(shù)應(yīng)用

貝葉斯算法主要運(yùn)用于兩個經(jīng)典案例:由英國統(tǒng)計學(xué)家/生物學(xué)家Ronald Fisher在1936年所收集鳶尾花案例,以及鄧肯1955年提出的大麥數(shù)據(jù)。

Iris數(shù)據(jù)集是常用的分類實(shí)驗(yàn)數(shù)據(jù)集,由Fisher,1936收集整理。Iris也稱鳶尾花卉數(shù)據(jù)集,是一類多重變量分析的數(shù)據(jù)集。

數(shù)據(jù)集包含150個數(shù)據(jù)樣本,分為3類,每類50個數(shù)據(jù),每個數(shù)據(jù)包含4個屬性??赏ㄟ^花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預(yù)測鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個種類中的哪一類。

數(shù)據(jù)集主要包括如下三個種類鳶尾花的數(shù)據(jù),每種50條數(shù)據(jù):

每條數(shù)據(jù)都從鳶尾花的如下四個特征進(jìn)行描述:

我們使用nij矩陣來作為實(shí)例,最小值min|W|。

當(dāng)協(xié)方差不同,協(xié)方差矩陣的斜率就不同,這樣每個相似的節(jié)點(diǎn)就會形成一個聚類。

我們采用貝葉斯聚類方法進(jìn)行繪圖:

混淆矩陣

散點(diǎn)圖

通過圖譜我們可以看出,利用樸素貝葉斯算法,可以將同類中的互斥數(shù)據(jù)分解出來,形成一種聚類,這些算法可以廣泛運(yùn)用在生活中。例如,垃圾郵件問題中,做貝葉斯公式計算過濾方法識別出類似特性郵件并歸集。

所以,了解貝葉斯算法的概念和使用貝葉斯算法正在計算機(jī)領(lǐng)域逐步推廣成為一種應(yīng)用領(lǐng)域。

 

本文由 @手心的太陽 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 這是算法內(nèi)容吧,不屬于產(chǎn)品工作范疇吧

    來自北京 回復(fù)
    1. 做調(diào)研的時候提取關(guān)鍵變量的方法

      來自湖北 回復(fù)
专题
12352人已学习12篇文章
广告营销是为了销售产品,既然花了钱当然希望能给产品的销量带来增长。本专题的文章分享了广告营销指南。
专题
19671人已学习13篇文章
什么是中台?为什么要建中台?中台建设的切入点在哪?本专题的文章将提供这些问题的解答。
专题
69485人已学习26篇文章
学会数据化运营能够提升效率,让你的工作事半功倍。
专题
12208人已学习15篇文章
本专题的文章分享了如何制定业务指标?
专题
47722人已学习18篇文章
如何提升用户留存率?——相信这是困扰无数产品和运营的问题。