通過(guò)文本挖掘,我們發(fā)現(xiàn)了國(guó)家公務(wù)員考試的這些秘密

0 評(píng)論 8125 瀏覽 18 收藏 13 分鐘

筆者以一個(gè)旁觀者的視角,通過(guò)一些語(yǔ)義分析技術(shù)去發(fā)現(xiàn)近八年(2011~2018)國(guó)考行政職業(yè)能力測(cè)驗(yàn)(以下簡(jiǎn)稱“行測(cè)”)考了哪些內(nèi)容,看能否有一些規(guī)律性的發(fā)現(xiàn)。

據(jù)中國(guó)新聞網(wǎng)報(bào)道,2020年度中央機(jī)關(guān)及其直屬機(jī)構(gòu)公務(wù)員招考筆試有超143萬(wàn)人報(bào)名,涉及中央和國(guó)家機(jī)關(guān)86個(gè)單位、23個(gè)直屬機(jī)構(gòu),而計(jì)劃招錄2.4萬(wàn)人,通過(guò)資格審查人數(shù)與錄用計(jì)劃數(shù)之比約為60:1,在報(bào)名期間出現(xiàn)多個(gè)競(jìng)爭(zhēng)超“千里挑一”的職位也就不足為奇了。

雖然筆者沒(méi)參加過(guò)國(guó)家公務(wù)員考試(以下簡(jiǎn)稱“國(guó)考”),但本著“內(nèi)行看門(mén)道,外行看熱鬧”的心態(tài),筆者想一個(gè)旁觀者的視角,通過(guò)一些語(yǔ)義分析技術(shù)去發(fā)現(xiàn)近八年(2011~2018)國(guó)考行政職業(yè)能力測(cè)驗(yàn)(以下簡(jiǎn)稱“行測(cè)”)考了哪些內(nèi)容,看能否有一些規(guī)律性的發(fā)現(xiàn)。

數(shù)據(jù)來(lái)源

為保證分析的時(shí)效性,筆者僅搜集了2011-2018這八年的國(guó)考行測(cè)試題(將地市級(jí)和副省級(jí)試題進(jìn)行合并),僅提取文本中的題干部分,不包含選項(xiàng)。

為了能直觀的了解這8年的考題講了啥,筆者首先從整體上提取其中的關(guān)鍵詞。

“行程計(jì)算”類考題是重軸戲

以下是經(jīng)過(guò)關(guān)鍵詞提取得到的TOP150關(guān)鍵詞的詞云分布圖,其中詞匯大小反映的是詞匯的重要性程度。

從上圖中可以直觀的看到,“速度”一詞在近8年的國(guó)考試題中出現(xiàn)頻率較高,說(shuō)明“行程問(wèn)題”在國(guó)考的試題類型中占較高比重,從如下示例中可以看出:

  • 小王步行的速度比跑步慢50%,跑步的速度比騎車(chē)慢50%。如果他…問(wèn)小王跑步從A城到B城需要多少分鐘
  • 甲、乙兩人計(jì)劃從A地步行去B地,乙早上7︰00出發(fā),勻速步行前往,…,為了追上乙,甲決定跑步前進(jìn),跑步的速度是乙步行速度的2.5倍,但每跑半小時(shí)都需要休息半小時(shí),那么甲什么時(shí)候才能追上乙
  • 如右圖所示,甲乙兩人從A、B兩點(diǎn)同時(shí)出發(fā),朝不同方向沿小路散步,已知甲的速度是乙的2倍。問(wèn)以下哪個(gè)坐標(biāo)圖能準(zhǔn)確描述兩人之間的直線距離與時(shí)間的關(guān)系

權(quán)重較高的還有“數(shù)量”、“里程”、“價(jià)格”等關(guān)鍵詞,也都反映出國(guó)考行測(cè)中的計(jì)算類型考題較多,國(guó)考行測(cè)中的數(shù)學(xué)運(yùn)算部分,整體難度不大,通常用普通方法都是可以得到答案的。但相對(duì)而言,速度比較慢,而借用一些良好的技巧,則可以快速的得到答案。

此外,近些年公務(wù)員考試中計(jì)算問(wèn)題考側(cè)重考查考生對(duì)常見(jiàn)方法技巧的理解、掌握與靈活運(yùn)用。常用的方法有湊整法、尾數(shù)法、分組或消去法公式法和估算法。

小貼士:

上述關(guān)鍵詞的提取主要考慮以下4個(gè)重要因素:

  1. 詞頻:一般詞匯出現(xiàn)的次數(shù)越多,它的重要程度越高;
  2. 位置:句首、句中還是句末,一般來(lái)說(shuō),句中的詞匯權(quán)重會(huì)高一些;
  3. 詞性:名詞、動(dòng)詞);
  4. 詞長(zhǎng):詞匯的長(zhǎng)度,一般來(lái)說(shuō),詞匯的長(zhǎng)度越長(zhǎng),好漢的語(yǔ)義信息越豐富,給的權(quán)重也更高一些。

盡管上面的關(guān)鍵詞云圖能抓住主要詞匯,但是各詞匯之間的關(guān)聯(lián)性被忽略了,孤立的對(duì)某些關(guān)鍵詞進(jìn)行解讀有時(shí)很難發(fā)現(xiàn)一些有意義的洞察。

那么,有沒(méi)有一種方法能夠既捕捉到關(guān)鍵信息(即發(fā)掘關(guān)鍵詞),又能直觀的反映出詞匯之間的關(guān)聯(lián)性?

答案是有的。

通過(guò)詞匯關(guān)聯(lián)圖挖掘試題側(cè)重點(diǎn)

詞匯關(guān)聯(lián)圖是上述關(guān)鍵詞云圖的拓展和延伸 ,增加了語(yǔ)境這一維度,也就是將經(jīng)常出現(xiàn)在同一個(gè)上下文的詞匯的關(guān)聯(lián)性表達(dá)出來(lái)。

基于自動(dòng)聚類形成的詞匯關(guān)聯(lián)圖,能自然的反映試題題干文本中的語(yǔ)義特征和潛在結(jié)構(gòu),由此能準(zhǔn)確且清晰的知曉近八年國(guó)考行測(cè)的出題側(cè)重點(diǎn)。

對(duì)于生成的可視化結(jié)果,可以這樣解讀:字體大小表示詞匯的權(quán)重值大小,原理同上,能反映詞匯在評(píng)論中的重要性,不同的顏色代表不同的話題。

詞匯之間距離越近,說(shuō)明它們?cè)谕徽Z(yǔ)境中出現(xiàn)的頻率較高,越具有語(yǔ)義相關(guān)性,比如“速度”、“執(zhí)法船”、“行駛”、“小時(shí)”和“騎車(chē)”等詞匯挨得很近,我們能迅速聯(lián)想這些關(guān)鍵詞跟試題中的“行程問(wèn)題”有關(guān),而不是跟政治、物理或者汽車(chē)有關(guān)。

下圖是自動(dòng)聚類出來(lái)的結(jié)果,自動(dòng)聚為8個(gè)主題(點(diǎn)擊下方圖片可查看高清大圖):

上圖中,按照詞匯及其簇群的重要性程度(字體大小、主題詞數(shù)量)甄選出有意義的主題,根據(jù)其中的關(guān)鍵詞可以推測(cè)這八年國(guó)考行測(cè)的4個(gè)熱門(mén)考點(diǎn),依次是:

  1. 行程類:這類題一般涉及到路程、速度、時(shí)間三者的變化關(guān)系,主要反映在紫色系的詞匯簇群中,從“速度”、“行駛”、“距離”、“騎車(chē)”等詞匯可以看出;
  2. 生物醫(yī)學(xué)常識(shí)類:這類題主要考察應(yīng)試者對(duì)于生物和醫(yī)學(xué)相關(guān)常識(shí)的知識(shí)覆蓋面,主要反映在深藍(lán)色的詞匯簇群中,從“抽搐”、“浮游植物”、“懸浮質(zhì)”、“海水”等詞匯可以看出;
  3. 財(cái)政學(xué)類:這類題主要考察應(yīng)試者在宏觀經(jīng)濟(jì)相關(guān)指標(biāo)的簡(jiǎn)單計(jì)算能力,主要反映在土黃色的詞匯簇群中,從“交易規(guī)?!?、“總額”、“水產(chǎn)品”、“同比增長(zhǎng)”等詞匯可以看出;
  4. 場(chǎng)景計(jì)算類:這類題從應(yīng)試者的生活、工作場(chǎng)景出發(fā),考察應(yīng)試者的基本計(jì)算能力,主要反映在青綠色和寶石藍(lán)兩個(gè)詞匯簇群中,從“培訓(xùn)”、“部門(mén)”、“單位”、“平均年齡”、“概率”、“定價(jià)”和“余額”等詞匯可以看出。

以上4類是筆者能夠直觀看出來(lái)的,其他的類別可能有過(guò)國(guó)考經(jīng)歷的小伙伴能識(shí)別出來(lái),歡迎大家在留言區(qū)發(fā)言告訴我~

小貼士:

此處的詞匯關(guān)聯(lián)圖基于HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)實(shí)現(xiàn)。相較于傳統(tǒng)的聚類算法(K-means、Spectral clustering、Agglomerative clustering、DBSCAN等),它有如下3大優(yōu)良特性:

  1. 不需要設(shè)定聚類數(shù),有算法自動(dòng)算出來(lái)簇群數(shù)
  2. 可以較好的處理數(shù)據(jù)中的噪音
  3. 可以找到基于不同密度的簇(與DBSCAN不同),并且對(duì)參數(shù)的選擇更加魯棒(Robust,模型更加健壯)

最后,筆者還想看看歷年的國(guó)考行測(cè)考題是否存在較大變動(dòng),可以將其抽象為一個(gè)文本挖掘任務(wù)——度量歷年國(guó)考行測(cè)試題之間的相似度,這可以通過(guò)對(duì)應(yīng)分析實(shí)現(xiàn)。

近八年各年份試題的相似度度量

按照上述提取關(guān)鍵詞的方法,分別提取近八年的國(guó)考行測(cè)試題題干中的TOP200關(guān)鍵詞,這些關(guān)鍵信息足以代表該年份國(guó)考行測(cè)試題了,有了這些數(shù)據(jù)就可以進(jìn)行對(duì)應(yīng)分析。

最終得到下圖(點(diǎn)擊下方圖片可查看高清大圖):

對(duì)于上圖的可視化結(jié)果,可以這樣解讀:夾角越小的國(guó)考試題,代表試題內(nèi)容相似度越高;其次,每個(gè)年份考題附近的關(guān)鍵詞匯,離得越近,說(shuō)明關(guān)鍵詞在該年份試題中的重要性程度越高,也就越能代表試題的特征。

由此,我們可以得到兩個(gè)分析角度:

  1. 從歷年的考題內(nèi)容相似度來(lái)看,2011年和2012年、2017年和2018年的試題內(nèi)容相關(guān)度較高,也就意味著出題結(jié)構(gòu)的連續(xù)性較好,以此類推,2013年度、2014年度、2015年度和2016年度的試題連續(xù)性也較好。與之相反的是,2012年度、2013年度的出題內(nèi)容相似度較低,出題內(nèi)容有一定的跳躍性。總體上來(lái)看,國(guó)考試題在出題內(nèi)容上的連續(xù)性較好,只是偶爾出現(xiàn)變動(dòng)。
  2. 從歷年試題的特征來(lái)看,2011年的人文特征較為明顯,2018年的經(jīng)濟(jì)方面的試題較多,2018年的邏輯測(cè)試較突出,2015年的語(yǔ)言學(xué)方面出題較多,2016年的偏計(jì)算,其他年份的特征不甚突出。

小貼士:

對(duì)應(yīng)分析法可以揭示同一變量的各個(gè)類別之間的差異,以及不同變量各個(gè)類別之間的對(duì)應(yīng)關(guān)系。比如不同年份的試題是不同類別,關(guān)鍵詞匯是變量。對(duì)應(yīng)分析圖譜可以將這8年的試題相關(guān)度情況通過(guò)視覺(jué)上可以接受的定位圖展現(xiàn)出來(lái)。

以上就是作為國(guó)考“外行”的筆者做的一些分析,由于僅提取出題干文本,文本數(shù)據(jù)量較少,難免會(huì)出現(xiàn)一些紕漏,而且對(duì)于有過(guò)國(guó)考經(jīng)歷的小伙伴來(lái)說(shuō),分析的結(jié)果可能還顯得粗輪廓。

在這里,筆者想要對(duì)參加“中華第一考”、努力奮斗的中國(guó)考生們表達(dá)一下敬佩之情,特以“金榜題名”為主題(不是藏頭詩(shī))讓機(jī)器賦詩(shī)4首,聊表敬意:

#專欄作家

蘇格蘭折耳喵(微信公眾號(hào):Social Listening與文本挖掘),人人都是產(chǎn)品經(jīng)理專欄作家,數(shù)據(jù)PM一只,擅長(zhǎng)數(shù)據(jù)分析和可視化表達(dá),熱衷于用數(shù)據(jù)發(fā)現(xiàn)洞察,指導(dǎo)實(shí)踐。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!