以智能貨柜為例,談?wù)凜V領(lǐng)域“識(shí)別錯(cuò)誤”的3類場(chǎng)景

0 評(píng)論 4067 瀏覽 12 收藏 9 分鐘

筆者從工作實(shí)踐出發(fā),以智能貨柜為例,梳理了CV領(lǐng)域識(shí)別錯(cuò)誤的3類場(chǎng)景,并對(duì)這些“錯(cuò)誤”給出了自己的建議。與大家分享。

一、圖像識(shí)別任務(wù)簡(jiǎn)介

先簡(jiǎn)單說(shuō)明下圖像識(shí)別四大任務(wù):分類、定位、檢測(cè)、分割。

  • 圖像分類:任務(wù)的輸出是判斷輸入圖像所屬分類。形象說(shuō)明:給一張有人的圖片,模型判斷圖片類型是“人”or“鳥(niǎo)”。
  • 目標(biāo)定位:在圖像里面目標(biāo)較少或固定,任務(wù)的輸出是把在圖像里的目標(biāo)找出來(lái)標(biāo)注具體位置。形象說(shuō)明:給一張有人的圖片,模型把人框出來(lái)。
  • 目標(biāo)檢測(cè):在圖像里面目標(biāo)較多且不固定,任務(wù)的輸出是把在圖像里的目標(biāo)找出來(lái)標(biāo)注具體位置,難度比目標(biāo)定位更大。形象說(shuō)明:給一張有很多人的圖片,模型把所有人都框出來(lái)。
  • 語(yǔ)義分割:基于目標(biāo)檢測(cè)的基礎(chǔ)下,更精準(zhǔn)的標(biāo)注出圖像里的目標(biāo)。形象說(shuō)明:給一張有很多人的圖片,模型把所有人按輪廓框出來(lái)。

二、識(shí)別錯(cuò)誤場(chǎng)景

以下介紹的圖像識(shí)別錯(cuò)誤場(chǎng)景主要圍繞目標(biāo)檢測(cè)和目標(biāo)分類任務(wù),在識(shí)別“商品”這個(gè)領(lǐng)域下,識(shí)別錯(cuò)誤場(chǎng)景一般分為以下三類:

  1. 漏識(shí)別:應(yīng)檢測(cè)目標(biāo)沒(méi)有被檢測(cè)到;
  2. 識(shí)別錯(cuò)誤:目標(biāo)被檢測(cè)到,但是識(shí)別分類錯(cuò)誤;
  3. 識(shí)別多:不應(yīng)檢測(cè)目標(biāo)被檢測(cè)到并且進(jìn)行了分類。

1. 識(shí)別錯(cuò)誤:漏識(shí)別

發(fā)生原因:

  1. 陽(yáng)光直射,圖片曝光,導(dǎo)致漏識(shí)別,或者其他類似的環(huán)境問(wèn)題,導(dǎo)致拍攝效果質(zhì)量差,圖片失去了正常準(zhǔn)度;
  2. 商品相互遮擋,被遮擋的商品沒(méi)有了特征,無(wú)法識(shí)別;
  3. 從模型角度:部分商品識(shí)別效果不好,欠擬合。

解決方案:

  1. 貼防光膜,擋陽(yáng)光,但是會(huì)造成視覺(jué)體驗(yàn)差,幾乎看不到商品。其他類似環(huán)境問(wèn)題也可以通過(guò)“物理”手段解決;
  2. 增加光照(異常)場(chǎng)景下的圖片訓(xùn)練數(shù)據(jù)(給模型針對(duì)具體錯(cuò)誤場(chǎng)景更好的泛化能力),拿更多真實(shí)環(huán)境的圖片作為訓(xùn)練數(shù)據(jù);利用數(shù)據(jù)增強(qiáng),調(diào)整圖片亮度模擬光照作為訓(xùn)練數(shù)據(jù);
  3. 利用IOU(檢測(cè)目標(biāo)面積的交并比)和一些圖像相似度對(duì)比算法(余弦對(duì)比、像素點(diǎn)對(duì)比等),在漏識(shí)別的情況下通過(guò)后處理邏輯重新將漏檢測(cè)的目標(biāo)“硬生生”識(shí)別出來(lái)。(本質(zhì)上,模型依舊是識(shí)別不準(zhǔn)確,但是實(shí)際效果是ok的)

但是加后處理邏輯算法是有潛在成本的,首先會(huì)讓團(tuán)隊(duì)精力沒(méi)放在模型真正的準(zhǔn)確度上,一直專注完善邏輯;

其次就算怎么加邏輯,也有沒(méi)辦法覆蓋到的場(chǎng)景,最后就是邏輯越來(lái)越復(fù)雜,反而會(huì)導(dǎo)致整體識(shí)別體驗(yàn)效果變差。

2. 識(shí)別錯(cuò)誤:識(shí)別錯(cuò)

發(fā)生原因:

  1. 兩個(gè)商品很相似(人眼也分不清楚到底哪個(gè)是A哪個(gè)是B),經(jīng)常相互識(shí)別;
  2. 從模型角度:部分商品識(shí)別效果不好,模型欠擬合/過(guò)擬合。

解決方案:

  1. 不斷調(diào)參,優(yōu)化模型,補(bǔ)充訓(xùn)練數(shù)據(jù),增加訓(xùn)練數(shù)據(jù)質(zhì)量;
  2. 減少/拒絕相似商品同時(shí)出現(xiàn)在同一場(chǎng)景下。(培訓(xùn)大客戶,委婉的解釋“最好不要”。可以強(qiáng)勢(shì)一點(diǎn)的時(shí)候就“暫時(shí)不支持這樣操作”);
  3. 通過(guò)產(chǎn)品邏輯處理,例如“模板”式識(shí)別:在該環(huán)境,識(shí)別出A和B,都默認(rèn)當(dāng)成A。(超級(jí)悖論,邏輯>AI);
  4. 物理式區(qū)分相似商品,如直接將A更換包裝(只要能落地商業(yè),成本<收益,管他是什么手段)。

3. 識(shí)別錯(cuò)誤-識(shí)別多

發(fā)生原因:

  1. 一個(gè)商品認(rèn)成了兩個(gè)(如頭尾長(zhǎng)一樣),或者背景和商品很像。在模型沒(méi)有優(yōu)化之前,這是很常見(jiàn)的問(wèn)題;
  2. 從模型角度:過(guò)擬合,某些不在識(shí)別范圍內(nèi)的物體也識(shí)別成了商品。

解決方案:

  1. 把一些容易識(shí)別成商品的物體當(dāng)作負(fù)樣本訓(xùn)練;
  2. 不斷調(diào)參,優(yōu)化模型,補(bǔ)充訓(xùn)練數(shù)據(jù),增加訓(xùn)練數(shù)據(jù)質(zhì)量。

三、萬(wàn)能方案

把大概率出錯(cuò)的內(nèi)容交給系統(tǒng)/人工修正處理,再把內(nèi)容輸出到用戶。例如用戶完成購(gòu)物,產(chǎn)生一筆訂單超過(guò)了500元,但是在對(duì)應(yīng)場(chǎng)景一般不可能出現(xiàn)超過(guò)100元的訂單,這種情況先把訂單交給人工檢查一遍沒(méi)問(wèn)題了,再去扣款通知用戶。

通過(guò)產(chǎn)品邏輯和功能去規(guī)范用戶行為,規(guī)范交互流程,把“極度容易出錯(cuò)/現(xiàn)階段無(wú)法支持”的行為排除掉。

四、經(jīng)驗(yàn)總結(jié)

(1)單個(gè)模型的內(nèi)容label越多,即便同個(gè)模型在訓(xùn)練測(cè)試時(shí)得出的指標(biāo)(準(zhǔn)確率)無(wú)太大差異,但因?yàn)橛写罅康南嘟黮abel交錯(cuò),實(shí)際場(chǎng)景下的穩(wěn)定性很差,label數(shù)量與運(yùn)營(yíng)穩(wěn)定性是非線性關(guān)系。

在AI技術(shù)只能照顧到90%的場(chǎng)景的時(shí)候,剩下的10%場(chǎng)景可以增加“二重防護(hù)”甚至“三重防護(hù)”:例如增加重力感應(yīng)、RFID感應(yīng)的手段兼顧輔助,去完善產(chǎn)品體驗(yàn)。最終呈現(xiàn)出來(lái)的體驗(yàn)效果是ok的,是符合用戶預(yù)期的,當(dāng)然同時(shí)會(huì)增加一些成本。

(2)tob的AI產(chǎn)品,有時(shí)候會(huì)放棄c端用戶體驗(yàn),優(yōu)先考慮b端商家(大部分情況下有一方得到利益,另外一方利益必定受損)。

例如智能貨柜:識(shí)別錯(cuò)誤情況多了以后,對(duì)于貨柜運(yùn)營(yíng)商家來(lái)說(shuō)承受的貨損和運(yùn)營(yíng)成本就會(huì)增加,商家就會(huì)懷疑技術(shù)能力甚至撤離貨柜布點(diǎn)和取消合作。

不僅如此,也會(huì)造成顧客認(rèn)為機(jī)器經(jīng)常亂扣錢,導(dǎo)致其不會(huì)回歸購(gòu)物場(chǎng)景。

(3)一定要折衷的話,前期會(huì)偏向“寧愿扣款錯(cuò)誤,后續(xù)退款給用戶,也不讓商家承受損失”。

畢竟c端用戶只要在一定時(shí)間內(nèi)能及時(shí)退款,或者是不及時(shí)扣款,是可以通過(guò)售后流程去把控的,但是商家(特別是小商家)對(duì)貨損十分敏感。

(4)AIPM要想辦法通過(guò)某些渠道提前控制使用者對(duì)產(chǎn)品的預(yù)期。

2B的AI產(chǎn)品要在培訓(xùn)時(shí)點(diǎn)明現(xiàn)階段支持什么,不支持什么,哪些場(chǎng)景靠AI是不靠譜的。不然客戶購(gòu)買了產(chǎn)品回去心理落差很大。又要有技巧的通過(guò)一些話術(shù)使得客戶有期待。在商務(wù)會(huì)議場(chǎng)景下,又要適當(dāng)?shù)摹胺糯蟆碑a(chǎn)品能力。

2C的AI產(chǎn)品通過(guò)前端交互引導(dǎo)、品牌認(rèn)知廣告一些方式,引導(dǎo)用戶的對(duì)產(chǎn)品技術(shù)和體驗(yàn)的心智發(fā)展。

 

作者:zain,微信號(hào):gdn1016756845;公眾號(hào):五百桶戶(ID:zainosl),交流是最好的進(jìn)步途徑之一。

本文由 @zain 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!