一二三四视频在线观看3,一个人看的www片免费网站入口,gogogo高清在线播放

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

AI（NLP語義方向）標注工具產(chǎn)品設計的5個錦囊

張佳偉

2020-09-09

5 評論 6599 瀏覽 46 收藏

編輯導讀：數(shù)據(jù)是AI公司的必需品，數(shù)據(jù)標注是AI產(chǎn)品模型開發(fā)中重要的一環(huán)，也是AI產(chǎn)品經(jīng)理必須要了解的基本技術，本文作者從認知基礎、為什么我們需要標注、錦囊三個方面對AI標注工具的產(chǎn)品設計工作展開了分析說明，與大家分享。

一、認知基礎

個人觀點的認知基礎如下，如果讀者不認同50%以上，那么就沒必要浪費時間閱讀后續(xù)內容了，反之，我希望大家多質疑與交流，通過Q&A來共同進步。

認知1：人工智能發(fā)展粗略可以分3個階段：符號主義（第1階段）→ 聯(lián)結主義（第2階段）→ 理想AI（第3階段），我們將長期（＞30年）處于第2階段

符號主義：代表人物紐厄爾和西蒙，認為人類的智能不管多復雜，歸根到底都是由符號計算來實現(xiàn)的。只要計算機科學家設計了適合的程序，計算機早晚有一天能憑著符號的計算，也能提出相對論、創(chuàng)造羅納爾多的射門、而剪紙捏泥人和書法篆刻就更不在話下。

符號主義的缺陷：很難在非常復雜的求解組合中快速找到最優(yōu)解。

聯(lián)結主義：代表人物大衛(wèi)休謨，認為人工智能的首要任務是建立大腦的模型，不是預先給定解決問題的算法，而是構建一個在計算機上模擬的“神經(jīng)元網(wǎng)絡”，讓機器自主地建立不同神經(jīng)元之間的“聯(lián)結”，通過最終結果的反饋，不斷調整聯(lián)結的模式，最終逼近最優(yōu)解。

聯(lián)結主義的缺陷：過于依賴經(jīng)驗數(shù)據(jù)

理想AI：感知智能+認知智能+情感的主觀感受+自我意識

理想AI的缺陷：暫時無實現(xiàn)方案

認知2：AI執(zhí)行語義理解任務，當前已經(jīng)到了技術成熟期，后續(xù)依賴產(chǎn)品力和數(shù)據(jù)

粗暴一點說，各家算法基本無差別（＜10%）。以解決實際業(yè)務問題、實現(xiàn)業(yè)務價值為衡量標準的話，產(chǎn)品的易用性（決定落地門檻/規(guī)模/效果）、組件化程度（決定成本），數(shù)據(jù)的數(shù)量和質量，才是決定價值的砝碼。

認知3：中國現(xiàn)階段（10年內）ToB市場，大B的真需求都在自給自足，第三方服務中小B才是正途

大B只有探索型需求和偽需求（為了體制內的升官發(fā)財）才會留給第三方，所以一個第三方公司如果敢說只做大B，那么一定是死路一條或者半死不活（無法建立壁壘/低利潤率）

二、為什么我們需要標注？

認知1中提到“聯(lián)結主義的缺陷在于過度依賴經(jīng)驗數(shù)據(jù)”，那經(jīng)驗數(shù)據(jù)是什么？經(jīng)驗數(shù)據(jù) = 已標注數(shù)據(jù)。

未標注數(shù)據(jù)只能用于無監(jiān)督機器學習，當前執(zhí)行99%以上AI任務的都是有監(jiān)督機器學習模型，預計未來30年以內還會保持現(xiàn)狀。所以數(shù)據(jù)標注就是繞不開的檻。

三、錦囊

效率高是好的標注工具的唯一標準，所以3條錦囊全部都是圍繞語義標注工具效率提升。

效率 = 認知效率 + 操作效率 + 智能化，以下錦囊也都是沿著這3個提升效率的方向進行的產(chǎn)品設計。

錦囊1：互斥性原則

語義模型本質上是一個分類模型，分類最關鍵的是類別清晰，例如想想折磨我們的垃圾分類?；コ庑灾档镁褪遣煌愔g要做到不重不漏（漏的部分一定設置專門的“其他分類”來兜?。?。

具體到產(chǎn)品設計上，歧義優(yōu)化（根據(jù)向量相似度，自動識別不同類之間存在交疊關系的語料），分類說明（設置為必填項）等都是互斥性原理的具體體現(xiàn)。

錦囊2：聚類冷啟動

Bert無監(jiān)督聚類模型做冷啟動，“效果杠杠的，誰用誰知道”。缺失此模塊，數(shù)據(jù)標注人員冷啟動階段就全靠想象力“瞎編”。我見過太多數(shù)據(jù)人員編寫相似句（同一語義不同句式表達方式）寫到生無可戀。上線周期還會因為標注效率低和效果差一拖再拖。

錦囊3：By分類智能推薦待標注語料

來，這一條錦囊大家可以在評論區(qū)猜一猜是啥意思？

錦囊4：Badcase閉環(huán)調優(yōu)

語義模型調優(yōu) = 正向調優(yōu)（By準確率）+ 反向調優(yōu)（By Badcase）

Badcase指模型判斷結果存在偏差的語料（來自于測試集+業(yè)務側收集反饋），是極其寶貴的復盤資料。設計原理是從點狀問題（Badcase）順藤摸瓜找到本質問題（如ASR準確率、語義分類體系問題、存在大量歧義等）進行解決。反向調優(yōu)可以極大提升模型的準確率、覆蓋率等核心指標。

錦囊5：隔離數(shù)據(jù)管理與標注工具

若不進行隔離，隨著產(chǎn)品功能復雜度的提升，標注工具的認知門檻會陡增。可以理解為廚房里的原材料和鍋碗瓢盆混在一起丟到了一個櫥柜中。這將嚴重影響產(chǎn)品給用戶的確定感，會將標注效率直接打6折。

結語

AI執(zhí)行語義任務，標注是繞不過的檻。但只要我們通過“傻瓜式工具”輔助用戶輕松邁過去，AI對真實場景的賦能價值將被放大100倍以上。

作者：張佳偉，AI產(chǎn)品經(jīng)理

本文由 @張佳偉原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)作者許可，禁止轉載。

題圖來自Unsplash，基于CC0協(xié)議。

更多精彩內容，請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

張佳偉

AI產(chǎn)品經(jīng)理

2篇作品 12386總閱讀量

企業(yè)數(shù)字化失敗，和這件小事脫不開關系

11-054033 瀏覽

Grammarly新CEO斯坦福分享：關于AI，喜歡上問題而不是解決方案，方案隨著時間推移而改變！

08-214244 瀏覽

新消費聯(lián)名背后的生意經(jīng)，誰高攀了誰，誰贏麻了？

09-211440 瀏覽

從“用戶體驗五要素”推導為“B端產(chǎn)品設計五要素”

08-1110317 瀏覽

客戶成功的前提，90%的公司都做不到

07-212244 瀏覽

評論

倒學了些精致的淘氣

錦囊三是訓練一個分類模型，待標注語料先通過分類模型預測一個類別，推薦給作為標注人員作為標注類別候選，是這個意思嗎？

最近來自上海回復
1. 張佳偉作者回復倒學了些精致的淘氣
  
  對，是這樣的，實際應用提效大約30％
  
  最近回復
產(chǎn)品天團

錦囊說清楚應用的標注任務類型會更好~

最近來自廣東回復
Tina971

我完全看不懂篇文章我還做了快一年的NLP自然語言處理UI設計完了。。。

最近回復
1. 張佳偉作者回復Tina971
  
  不不不，主要是這個文章太細分領域
  
  最近回復