NLP領(lǐng)域AI產(chǎn)品經(jīng)理必備的常識及術(shù)語
AI產(chǎn)品經(jīng)理自然要了解目前AI領(lǐng)域的基本技術(shù),本文介紹了NLP領(lǐng)域AI產(chǎn)品經(jīng)理必備的常識及術(shù)語。與大家分享!
產(chǎn)品經(jīng)理要了解基本的技術(shù),那AI產(chǎn)品經(jīng)理自然要了解目前AI領(lǐng)域的基本技術(shù)。
當(dāng)然我們不一定要掌握那些技術(shù)但至少要了解基本的常識和專業(yè)術(shù)語,便于更好的利用AI技術(shù)創(chuàng)造或優(yōu)化產(chǎn)品;同時(shí)可以與技術(shù)算法人員更輕松的溝通并擁有一定的話語權(quán)。
由于目前丸子妹在從事NLP領(lǐng)域相關(guān)產(chǎn)品實(shí)踐,因此總結(jié)了目前階段接觸到的AI相關(guān)的技術(shù)以及日常接觸到的專業(yè)術(shù)語。希望給正在準(zhǔn)備入行或者剛剛?cè)胄胁痪玫耐稽c(diǎn)點(diǎn)幫助,如有疑問和建議歡迎各位及時(shí)指正和交流。
NLP領(lǐng)域目前主要有幾個(gè)大的任務(wù)類別:語音識別和生成、文本分類、信息提取、實(shí)體識別、對話系統(tǒng)、機(jī)器翻譯、情感分析、知識圖譜等。而每一個(gè)大類都有比較經(jīng)典常用的技術(shù)和算法模型,了解了這些常識就可以在有新的任務(wù)時(shí)做好足夠的項(xiàng)目預(yù)判及評估。
但由于算法的不斷優(yōu)化創(chuàng)新,新的算法層出不窮。因此需要更加及時(shí)的關(guān)注領(lǐng)域頂會(huì)論文動(dòng)態(tài)及新模型的優(yōu)劣,不必一味追求最新的算法;而是通過對比分析選擇更合適在自己的產(chǎn)品業(yè)務(wù)中落地的算法。
一、常見任務(wù)及當(dāng)下經(jīng)典算法
- 文本分類/意圖識別:CNN / Bert / LSTM+Attention
- 實(shí)體識別:LSTM+CRF
- 中文分詞:N-Gram / CRF / HMM
- 文本相似度:TF-IDF / BM25+Bert
- 文本摘要:Bert+Textrank
- 問答系統(tǒng)/機(jī)器翻譯:Transformer+Bert / Seq2seq+Attention
- 情感分析:Word2vec+LSTM / CNN
二、常見知識點(diǎn)、術(shù)語
- 人工智能領(lǐng)域兩類算法:基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法(Machine Learning) / 深度學(xué)習(xí)算法(Deep Learning)
- 人工智能三要素:算法、算力、數(shù)據(jù)
- 常用的框架:pytorch / sklearn / tensorflow /PaddlePaddle
- 數(shù)據(jù)標(biāo)注:為模型訓(xùn)練提供學(xué)習(xí)語料的數(shù)據(jù)處理,一般為人工+系統(tǒng)相結(jié)合
- 預(yù)訓(xùn)練模型:用某個(gè)較大的數(shù)據(jù)集訓(xùn)練好的模型(給出了可使用的初始化參數(shù)),你可以利用它使用自有數(shù)據(jù)集進(jìn)行訓(xùn)練并得到合適的模型參數(shù)
- 詞向量:即將文字?jǐn)?shù)字化,利用數(shù)學(xué)領(lǐng)域的向量表示單詞/短語
- 語料:語言材料,提供給算法模型進(jìn)行學(xué)習(xí)的基本知識
- 批處理大?。杭从?xùn)練的 batch_size
- 訓(xùn)練數(shù)據(jù)的訓(xùn)練次數(shù):訓(xùn)練 epoch 數(shù)
- 學(xué)習(xí)率:即 learning_rate
三、詞向量維度:網(wǎng)絡(luò)中詞向量的維度
- 各層網(wǎng)絡(luò)卷積核大?。杭?kernel_size
- 窗口大?。簊kip-gram 算法中的 window_size 參數(shù)
- 過擬合:在模型訓(xùn)練過程中效果較好但在測試樣本中準(zhǔn)確率較差,表現(xiàn)為模型過分依賴于訓(xùn)練語料,反之可以理解“欠擬合”
- 模型蒸餾:算法能夠用小型的網(wǎng)絡(luò)從微調(diào)過的文本分類模型中學(xué)習(xí)信息
- 蒸餾訓(xùn)練次數(shù):蒸餾過程遍歷蒸餾數(shù)據(jù)的次數(shù)
- 評估標(biāo)準(zhǔn):準(zhǔn)確率、召回率、F1、AUC、ROC、損失函數(shù)
- 監(jiān)督學(xué)習(xí):通過已有的訓(xùn)練語料完成模型訓(xùn)練,從而在測試樣本驗(yàn)證模型已經(jīng)學(xué)習(xí)到的能力
- 強(qiáng)化學(xué)習(xí):將一個(gè)已經(jīng)訓(xùn)練好的模型作為另一個(gè)任務(wù)的基礎(chǔ)模型,降低成本
好了,以上就是丸子妹根據(jù)實(shí)際工作總結(jié)的AI產(chǎn)品經(jīng)理必備的與技術(shù)相關(guān)的常識和術(shù)語,歡迎評論區(qū)補(bǔ)充~
本文由 @丸子筆記 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Pixabay,基于CCO協(xié)議。
ai產(chǎn)品經(jīng)理會(huì)在需求文檔里寫這些東西?
寫的很實(shí)用,希望能加個(gè)微信多交流一下,V:939999047
只是翻譯