全球?qū)@麛?shù)據(jù)怎么玩才有趣?之 聚類算法(三)
文章通過實(shí)際應(yīng)用案例,展示了聚類算法在專利數(shù)據(jù)分析中的實(shí)用性,為技術(shù)研究方向的挖掘提供了一種有效的方法。
一、說職場故事
在產(chǎn)業(yè)研究中,有以下研究需求:
- 洞察行業(yè)龍頭企業(yè)所聚焦的技術(shù)領(lǐng)域。
- 追蹤某位專家的研究方向及其演變。
- 把握某一產(chǎn)業(yè)領(lǐng)域近年來的技術(shù)發(fā)展趨勢
那今天講解如何利用全球?qū)@麛?shù)據(jù)來實(shí)現(xiàn)這些研究目標(biāo),在此之前,讓我們先了解聚類算法的相關(guān)知識。
二、聚類算法
聚類算法是一種無監(jiān)督學(xué)習(xí)方法,旨在將數(shù)據(jù)集中的對象劃分為若干個類別或簇,使得同一類別內(nèi)的對象相似度較高,不同類別之間的相似度較低,簡言之就是自動實(shí)現(xiàn)“物以類聚,人以群分”。
常見的聚類算法有K-means、層次聚類、DBSCAN、譜聚類、高斯混合模型、模糊C-means、K-medoids、Mean Shift、OPTICS、BIRCH等,不同的聚類算法各有優(yōu)缺點(diǎn),適用于不同類型的數(shù)據(jù)和不同的應(yīng)用場景。選擇合適的聚類算法通常取決于具體的需求、數(shù)據(jù)的特性和計(jì)算資源。不同的聚類算法介紹、優(yōu)缺點(diǎn)可參考該份資料
https://blog.csdn.net/Java_college/article/details/136173448
三、說應(yīng)用場景
聚類算法在全球?qū)@麛?shù)據(jù)挖掘中發(fā)揮著重要作用,可用在以下研究場景:
- 分析企業(yè)技術(shù)研究方向及趨勢分析
- 分析某位專家研究方向及研究趨勢
- 分析某個產(chǎn)業(yè)領(lǐng)域技術(shù)發(fā)展方向及趨勢
1. 應(yīng)用場景一:分析企業(yè)技術(shù)研究方向及趨勢分析
以A企業(yè)為例,我們可以通過查詢其專利數(shù)據(jù)集,利用模型或第三方接口提取技術(shù)關(guān)鍵詞,再通過聚類算法整理出技術(shù)清單,這些清單將直觀展示企業(yè)的主要研究方向。若要觀察企業(yè)技術(shù)演變趨勢,我們可以根據(jù)專利的“申請日期”將數(shù)據(jù)分為不同時間段,然后通過聚類算法分析,便可揭示企業(yè)在不同時期的技術(shù)發(fā)展軌跡。流程如下:
2. 應(yīng)用場景二:分析某位專家主要研究方向及研究趨勢
方法同上,其核心是獲取專家的專利數(shù)據(jù)集。流程如下:
3. 應(yīng)用場景三:分析某個產(chǎn)業(yè)領(lǐng)域技術(shù)發(fā)展方向及趨勢
以人工智能領(lǐng)域?yàn)槔?,我們可以采用相同的方法,通過聚類算法分析近年來的技術(shù)方向,揭示該領(lǐng)域的技術(shù)發(fā)展趨勢。流程如下:
四、寫在后面的話
本章我們探討了如何通過聚類算法從全球?qū)@麛?shù)據(jù)中挖掘技術(shù)研究方向,需要注意的是:
(1)聚類算法不僅適用于全球?qū)@治?,同樣可以擴(kuò)展到頂級期刊和全球項(xiàng)目數(shù)據(jù)集的分析中。
(2)聚類算法常與大型模型結(jié)合使用,以更精準(zhǔn)地提煉技術(shù)關(guān)鍵詞。
本文由 @王海濤 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
文章中直觀的圖表和報告,可以幫助我們快速洞察行業(yè)趨勢、技術(shù)熱點(diǎn)以及競爭對手的動向。