AI產(chǎn)品經(jīng)理,如何從零開始打造專業(yè)領(lǐng)域的停用詞庫(kù)
在SEO中,為節(jié)省存儲(chǔ)空間和提高搜索效率,搜索引擎在索引頁(yè)面或處理搜索請(qǐng)求時(shí)會(huì)自動(dòng)忽略某些字或詞,這些字或詞即被稱為停用詞。那么對(duì)于AI產(chǎn)品經(jīng)理來(lái)說(shuō),要如何從零開始打造專業(yè)領(lǐng)域的停用詞庫(kù)?
人工智能領(lǐng)域有三大基礎(chǔ):數(shù)據(jù)、計(jì)算力和算法,只有有了數(shù)據(jù),才會(huì)有數(shù)據(jù)智能,有了數(shù)據(jù)才能描繪用戶精準(zhǔn)畫像,從而進(jìn)行豐富的個(gè)性化推薦、精準(zhǔn)營(yíng)銷。計(jì)算力現(xiàn)在各家體力相當(dāng),沒有多大差別,而好的算法卻能夠讓你的AI產(chǎn)品更加智能。
在智能客服、垂直行業(yè)的AI助手:法律、金融、體育、醫(yī)療健康、智能語(yǔ)音助手領(lǐng)域,如何從零打造自己的停用詞庫(kù)是一個(gè)產(chǎn)品經(jīng)理必備技能?
什么是停用詞
停用詞(Stop Words) ,詞典譯為“電腦檢索中的虛字、非檢索用字”。在SEO中,為節(jié)省存儲(chǔ)空間和提高搜索效率,搜索引擎在索引頁(yè)面或處理搜索請(qǐng)求時(shí)會(huì)自動(dòng)忽略某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。
停用詞一定程度上相當(dāng)于過濾詞(Filter Words),不過過濾詞的范圍更大一些,包含黃色、政治等敏感信息的關(guān)鍵詞都會(huì)被視做過濾詞加以處理,停用詞本身則沒有這個(gè)限制。通常意義上,停用詞(Stop Words)大致可分為如下兩類:
(1)使用十分廣泛,甚至是過于頻繁的一些單詞。比如英文的“i”、“is”、“what”,中文的“我”、“就”之類詞幾乎在每個(gè)文檔上均會(huì)出現(xiàn),查詢這樣的詞搜索引擎就無(wú)法保證能夠給出真正相關(guān)的搜索結(jié)果,難于縮小搜索范圍提高搜索結(jié)果的準(zhǔn)確性,同時(shí)還會(huì)降低搜索的效率。
因此,在真正的工作中,Google和百度等搜索引擎會(huì)忽略掉特定的常用詞,在搜索的時(shí)候,如果我們使用了太多的停用詞,也同樣有可能無(wú)法得到非常精確的結(jié)果,甚至是可能大量毫不相關(guān)的搜索結(jié)果。
(2)文本中出現(xiàn)頻率很高,但實(shí)際意義又不大的詞。這一類主要包括了語(yǔ)氣助詞、副詞、介詞、連詞等,通常自身并無(wú)明確意義,只有將其放入一個(gè)完整的句子中才有一定作用的詞語(yǔ)。如常見的“的”、“在”、“和”、“接著”之類,比如:“AI產(chǎn)品經(jīng)理總舵是AI產(chǎn)品經(jīng)理的匯集地”這句話中的“是”、“的”就是兩個(gè)停用詞。
為什么要建停用詞庫(kù)
文本中如果大量使用停用詞容易對(duì)聊天對(duì)話中的有效信息造成噪音干擾,所以QA搜索引擎在運(yùn)算之前都要對(duì)所索引的信息進(jìn)行消除噪音的處理。了解了停用詞,在對(duì)話語(yǔ)料內(nèi)容中適當(dāng)?shù)販p少停用詞出現(xiàn)的頻率,可以有效地提高關(guān)鍵詞密度,使得自然語(yǔ)言理解過程中的意圖識(shí)別和語(yǔ)義匹配更加準(zhǔn)確。
所以搭建專業(yè)領(lǐng)域的停用詞庫(kù),對(duì)處理專業(yè)語(yǔ)料庫(kù)及用戶問題的意圖識(shí)別及語(yǔ)義匹配的準(zhǔn)確性會(huì)有很大提高。
如何搭建專業(yè)停用詞庫(kù)
1. 匯總通用停用詞庫(kù)
- 標(biāo)點(diǎn)符號(hào):,。、?“”等
- 語(yǔ)氣詞:呵呵 嗚嗚 哈 呸等
- 指代詞:我 你 各位等
- 連接詞:即使 即便 卻 或等
- 總結(jié)詞:總的來(lái)說(shuō) 再者說(shuō) 何樂不為等
- 英文詞:yourself?yes?who等
現(xiàn)在網(wǎng)上有一些通用停用詞庫(kù),例如:百度停用詞列表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)、哈工大停用詞表等,整理去重后有2428條。但是每個(gè)領(lǐng)域有專業(yè)語(yǔ)言特色,特別是金融領(lǐng)域醫(yī)藥領(lǐng)域和法律領(lǐng)域,如果能夠加上專業(yè)停用詞做補(bǔ)充,那樣識(shí)別和匹配結(jié)果效果會(huì)更好。
2. 篩選行業(yè)專有停用詞
以保險(xiǎn)行業(yè)為例,首先通過網(wǎng)絡(luò)搜集保險(xiǎn)行業(yè)問答QA語(yǔ)料,如下圖所示:
將QA分別做分詞處理,然后統(tǒng)計(jì)詞頻按數(shù)量排序,如下圖所示:
將該數(shù)據(jù)和通用停用詞做去重后,人工篩選行業(yè)專有停用詞。將篩選完成的專業(yè)專有停用詞和通用停用詞合并,就構(gòu)成了保險(xiǎn)行業(yè)的專有停用詞庫(kù)了。
AI產(chǎn)品經(jīng)理的極致理論
AI產(chǎn)品已經(jīng)進(jìn)入精細(xì)化設(shè)計(jì)階段,因?yàn)閷?duì)話型機(jī)器人產(chǎn)品特性原因,輸入輸出的極度簡(jiǎn)單,也就造成了處理過程的極度復(fù)雜。一個(gè)對(duì)話型機(jī)器人系統(tǒng)包含了近二十項(xiàng)技術(shù)模塊,每個(gè)模塊都會(huì)影響最終輸出的結(jié)果,只有把顆粒度分的足夠細(xì)小,在每一個(gè)顆粒度上做到“好一點(diǎn)”,才能使得最終結(jié)有明顯提升。
小米產(chǎn)品里有一個(gè)極致思維,估計(jì)大家都聽過木桶理論,說(shuō)是一個(gè)木桶,能裝多少水,取決于拼湊這個(gè)木桶所有的木板最短的那塊。然而在AI產(chǎn)品已經(jīng)普及(例如智能音箱),避免出現(xiàn)短板,已經(jīng)不是最大的難題了。
難題是什么呢?
如何提高每一塊板的高度,這時(shí)候就需要用到極致思維。就是說(shuō)怎么在每一塊板子上下功夫,把每一塊板子都做到極致。
舉個(gè)例子:IPod剛出來(lái)的時(shí)候和其他MP3最大的區(qū)別是什么呢?是在機(jī)器里面加了一個(gè)小硬盤,能存上千首歌。連續(xù)播放幾天集不重樣,就因?yàn)檫@一點(diǎn)做到了極致,迅速占領(lǐng)了音樂播放器市場(chǎng)。小米產(chǎn)品能夠迅速占領(lǐng)市場(chǎng),是因?yàn)樗麅?yōu)化了整個(gè)供應(yīng)鏈系統(tǒng),才有了物美價(jià)廉的產(chǎn)品。
AI產(chǎn)品經(jīng)理要有數(shù)據(jù)信仰
AI產(chǎn)品要堅(jiān)信,未來(lái)的技術(shù)及產(chǎn)品的底層智能是數(shù)據(jù)智能,數(shù)據(jù)是一切運(yùn)算及邏輯的本質(zhì)基礎(chǔ),具備數(shù)據(jù)信仰才能做好AI產(chǎn)品。數(shù)據(jù)是基礎(chǔ),算法是路徑,具備了足夠干凈的數(shù)據(jù)和合適的算法,才會(huì)有更準(zhǔn)確的結(jié)果。
這里說(shuō)的算法不僅僅指的工程師寫出來(lái)的算法,那只是狹義的算法,我所說(shuō)的是廣義的算法,既包括產(chǎn)品經(jīng)理的做事的前后順序及做事方法,一切選擇都會(huì)對(duì)結(jié)果造成影響,一切影響都會(huì)左右最終結(jié)果,這里不做價(jià)值判斷。
AI產(chǎn)品經(jīng)理在工作中要有數(shù)據(jù)信仰,多做數(shù)據(jù)判斷,少做主觀判斷,這樣最終結(jié)果才不會(huì)和預(yù)期有太大偏差。
雷軍曾經(jīng)說(shuō)過,要想知道產(chǎn)品的迭代方向,不是產(chǎn)品經(jīng)理拍腦門想出來(lái)的,也不是通過客服反映出來(lái)的,客服反映的只是愿意表達(dá)的那部分用戶的需求,而不是全部用戶的需求,就像是現(xiàn)在的一些論壇,看帖的用戶數(shù)是發(fā)帖用戶數(shù)的十倍以上,所有帖子中熱帖數(shù)量只占到所有帖子數(shù)量的1%。
也就是說(shuō)論壇其實(shí)是1000個(gè)人在聽1個(gè)人講話,甚至更低,而這一個(gè)人根本不能代表1000個(gè)人的需求。
數(shù)據(jù)信仰就是要去看數(shù)據(jù)的本質(zhì),透過數(shù)據(jù)本質(zhì)才能找到更好的算法。中國(guó)漢字有4萬(wàn)個(gè),常用的只有3500個(gè),常用對(duì)話句式有10W條,但是抽離出來(lái)的停用詞也就不到2500個(gè)。
作者:老張,宜信集團(tuán)保險(xiǎn)事業(yè)部智能保險(xiǎn)產(chǎn)品負(fù)責(zé)人,運(yùn)營(yíng)軍師聯(lián)盟創(chuàng)始人之一,《運(yùn)營(yíng)實(shí)戰(zhàn)手冊(cè)》作者之一。
本文由 @老張 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!