如何設(shè)計(jì)好的AI用戶體驗(yàn)?
本文介紹了設(shè)計(jì)好的AI用戶體驗(yàn)時(shí)需要牢記的三個(gè)基本原則——期望、錯(cuò)誤和信任。
在先前的文章,我談到了《AI 開(kāi)發(fā)指南:機(jī)器學(xué)習(xí)產(chǎn)品是什么?》,AI及ML產(chǎn)品需要更多的試驗(yàn)、反復(fù)調(diào)整,也因此帶來(lái)更多的不確定性。 關(guān)于什么是AI及ML產(chǎn)品,在《如何設(shè)計(jì)和管理AI產(chǎn)品?》這篇文章里有更詳細(xì)的說(shuō)明。
因此,我們需要為ML工程師和數(shù)據(jù)科學(xué)家提供足夠的空間和彈性,來(lái)探索可能的解決方案。 同時(shí)也需要明確定義目標(biāo)函數(shù)(objective function),并鼓勵(lì)團(tuán)隊(duì)盡早測(cè)試,以免失去方向。
為AI&ML 產(chǎn)品設(shè)計(jì)用戶體驗(yàn) (UX) 時(shí),同樣面臨這樣的挑戰(zhàn)。 在過(guò)去的幾個(gè)月里,我與UX團(tuán)隊(duì)合作,收集客戶意見(jiàn)并改進(jìn)ML產(chǎn)品的用戶體驗(yàn)。 以下是我們學(xué)到的三件最重要的事情:
三個(gè)基本原則:期望、錯(cuò)誤和信任
建立用戶正確的期望Set the Right Expectations
機(jī)器學(xué)習(xí)模型的表現(xiàn)會(huì)隨著數(shù)據(jù)更多而提高,也就是說(shuō),ML模型會(huì)不斷自我進(jìn)步,這是使用AI&ML最大的好處之一。 但這也意味著,他們一開(kāi)始的表現(xiàn)不會(huì)是完美的。
因此,必須讓用戶了解ML產(chǎn)品不斷進(jìn)步的本質(zhì)。 更重要的是,我們需要與用戶合作,事先確定一套驗(yàn)收標(biāo)準(zhǔn)(acceptance criteria)。 只有當(dāng)ML模型符合驗(yàn)收標(biāo)準(zhǔn)時(shí),我們才會(huì)推出該項(xiàng)產(chǎn)品。
設(shè)置驗(yàn)收標(biāo)準(zhǔn)時(shí),可以比較系統(tǒng)的基準(zhǔn)性能(baseline performane),替代或現(xiàn)有解決方案的性能,或甚至是比較標(biāo)準(zhǔn)答案(ground truth),
例如:比較人工翻譯及機(jī)器翻譯的準(zhǔn)確度。 或是將機(jī)器預(yù)測(cè)的天氣數(shù)據(jù),拿來(lái)與真實(shí)天氣數(shù)據(jù)做比較。 又或是將機(jī)器包裝的速度及準(zhǔn)確度,與人工操作比較,客戶可以設(shè)定:唯有ML模型的準(zhǔn)確度到達(dá)人工的90%才能上線。
有時(shí),制定驗(yàn)收標(biāo)準(zhǔn)可能比想象中復(fù)雜:你可能有多個(gè)不同的用戶類型,他們需要不同的驗(yàn)收標(biāo)準(zhǔn)。 或者,你的使用案例要求在某個(gè)特殊項(xiàng)目必須完全沒(méi)有錯(cuò)誤。
另外需要注意的是,模型本身的準(zhǔn)確性通常并不是最好的衡量標(biāo)準(zhǔn),一般需要考慮精確度(Precision)和召回率(Recall)之間的權(quán)衡。 這在前一篇文章有更詳細(xì)的說(shuō)明。
如果用戶需要ML模型從第一天開(kāi)始就有很好的表現(xiàn),可以預(yù)先訓(xùn)練的模型(pretrained model):是先搜集數(shù)據(jù),確定模型達(dá)到驗(yàn)收標(biāo)準(zhǔn)。
但是,要注意的是,即使使用預(yù)先訓(xùn)練的模型,例外情況(edge case)仍可能發(fā)生。 你需要與用戶合作,制定計(jì)劃降低風(fēng)險(xiǎn)。例如:如果模型不起作用,有什么備案? 如果用戶想要添加新的使用案例,需要多長(zhǎng)時(shí)間重新訓(xùn)練模型? 需要多少額外的數(shù)據(jù)? 當(dāng)不允許更新模型時(shí),用戶是否可以設(shè)置更新中斷期? 這些問(wèn)題都需要事先回答。
通過(guò)建立用戶的正確期望,你不僅可以避免用戶挫折,甚至可以讓用戶感到驚喜。 亞馬遜搭載Alexa語(yǔ)音助理的智能型喇叭就是一個(gè)很好的例子。 我們對(duì)類人形機(jī)器人有很高的期望:我們預(yù)期它們可以像人類一樣自然交談和動(dòng)作。
所以,當(dāng)智能機(jī)器人Pepper(下圖)沒(méi)有辦法和我們進(jìn)行流暢的對(duì)話時(shí),我們感到沮喪,不想再使用它。 相比之下,Alexa 定位為智能型喇叭,降低了客戶的期望。 當(dāng)我們了解到它不僅僅可以播放音樂(lè),還有很多其他的功能時(shí),就能夠讓用戶感到預(yù)期外的驚喜。
保持信息公開(kāi)透明(transparency)是加強(qiáng)溝通和信任的另一個(gè)重要部分。 ?ML 比軟件工程更具不確定性。 因此,顯示每個(gè)預(yù)測(cè)的信賴區(qū)間(confidence level),也是建立正確期望的一種方式。 這么做也能夠讓用戶更了解算法的工作原理,從而與用戶建立信任。
建立信任(Build Trust)
ML算法通常缺乏透明度,就像一個(gè)黑盒子,我們知道輸入(例如圖像),和輸出預(yù)測(cè)(例如,圖像中的對(duì)象/人員是什么)分別是什么,但不知道盒子里是如何運(yùn)作的。 因此,向用戶解釋ML模型如何運(yùn)作很重要,可以幫助我們建立信任,和獲得用戶支持。
如果不對(duì)算法多做說(shuō)明,有可能會(huì)讓用戶感覺(jué)被疏遠(yuǎn),或感覺(jué)產(chǎn)品不夠人性化。 例如,優(yōu)步司機(jī)抱怨說(shuō)Uber算法感覺(jué)非人性化,他們質(zhì)疑算法的公平性, 因?yàn)樗惴ㄋ龅臎Q定,并沒(méi)有給他們明確的解釋。 這些駕駛也認(rèn)為算法搜集很多他們的數(shù)據(jù),對(duì)它們非常了解,但他們對(duì)算法的工作原理和決策卻了解的很少。
相反的,亞馬遜的網(wǎng)頁(yè)很清楚地告訴用戶為什么他們推薦這些書。 這只是一個(gè)簡(jiǎn)單的單行解釋。 告訴用戶其他看過(guò)該項(xiàng)產(chǎn)品的用戶還瀏覽過(guò)什么商品,但卻可以讓用戶大致了解算法的原理,讓用戶可以更好地信任推薦系統(tǒng)。
同樣的優(yōu)步司機(jī)研究也發(fā)現(xiàn),司機(jī)覺(jué)得他們經(jīng)常被監(jiān)視,但他們不知道這些數(shù)據(jù)將用于什么用途。 除了遵守 GDPR 或其他數(shù)據(jù)保護(hù)法規(guī)外,還應(yīng)該嘗試讓用戶了解他們的數(shù)據(jù)是如何被管理的。
優(yōu)雅地處理錯(cuò)誤(Handle Errors Gracefully)
“… 也有未知的未知-那些我們不知道我們不知道的… 這一類往往是最困難的”
——唐納德· 拉姆斯菲爾德
“… But there are also unknown unknowns — the ones we don’t know we don’t know… it is the latter category that tend to be the difficult ones”
——Donald Rumsfeld
在設(shè)計(jì)系統(tǒng)時(shí),通常很難預(yù)測(cè)系統(tǒng)會(huì)如何出錯(cuò)。 這就是為什么用戶測(cè)試和質(zhì)量保證(Quality Assurance),對(duì)于識(shí)別失敗狀態(tài)(fail state)和例外情況(edge case)極其重要。 在實(shí)驗(yàn)室或?qū)嶋H現(xiàn)場(chǎng),進(jìn)行更多的測(cè)試,有助于最大限度地減少這些錯(cuò)誤。
你也需要根據(jù)錯(cuò)誤的嚴(yán)重性和頻率進(jìn)行分類和處理。 有需要通知用戶并立即處理的致命錯(cuò)誤(fatal error)。 但也有一些小錯(cuò)誤,并沒(méi)有真正影響系統(tǒng)的整體運(yùn)作。 如果你每個(gè)小錯(cuò)誤都通知用戶,那會(huì)非常煩人,干擾用戶的產(chǎn)品體驗(yàn)。 相反的,如果不立即解決致命錯(cuò)誤,那可能會(huì)是災(zāi)難性的。
你可以將錯(cuò)誤視為用戶期望和系統(tǒng)假設(shè)之間預(yù)期之外的交互(unexpected interactions between user expectations and system assumptions):
- 用戶錯(cuò)誤User Error:當(dāng)用戶”誤用”系統(tǒng)時(shí),導(dǎo)致的錯(cuò)誤。
- 系統(tǒng)錯(cuò)誤System Error:當(dāng)系統(tǒng)無(wú)法提供用戶期望的正確答案時(shí),就會(huì)發(fā)生系統(tǒng)錯(cuò)誤。 它們通常是由于系統(tǒng)固有的局限性造成的。
- 情境錯(cuò)誤Context Error:當(dāng)系統(tǒng)按預(yù)期運(yùn)作,但用戶確察覺(jué)到錯(cuò)誤時(shí),這就是情境錯(cuò)誤。 這通常是因?yàn)槲覀冊(cè)O(shè)計(jì)系統(tǒng)的假設(shè)是錯(cuò)誤的。
舉例來(lái)說(shuō),如果用戶不斷拒絕來(lái)自App應(yīng)用的建議,產(chǎn)品團(tuán)隊(duì)可能需要查看并了解原因。 例如,用戶可能從日本搬到了美國(guó),但是應(yīng)用程序錯(cuò)誤地根據(jù)用戶的日本信用卡信息,假設(shè)用戶居住在亞洲。 在這種情況下,用戶的實(shí)際位置數(shù)據(jù)可能是提出此類建議的更好數(shù)據(jù)依據(jù)。
最棘手的錯(cuò)誤類型是未知未知(the unknown unknowns):系統(tǒng)無(wú)法檢測(cè)到的錯(cuò)誤。 像上面的例子就是屬于這種錯(cuò)誤類型,必須要回去分析數(shù)據(jù)或異常模式,才有可能察覺(jué)。
另一種方法是允許用戶提供回饋feedback:讓用戶能夠很容易地,隨時(shí)隨地提供回饋。 讓用戶幫助你發(fā)現(xiàn)未知未知,或是其他類型的錯(cuò)誤。
你也可以利用用戶回饋來(lái)改進(jìn)你的系統(tǒng)。 例如。 YouTube 允許用戶告訴系統(tǒng)他們不想看到的某些建議。 它還利用這一點(diǎn)收集更多數(shù)據(jù),使其建議更加個(gè)人化和準(zhǔn)確。
將ML模型預(yù)測(cè)作為建議,而不強(qiáng)制用戶執(zhí)行,也是管理用戶期望的一種方式。 你可以為用戶提供多個(gè)選項(xiàng),而不指定用戶應(yīng)執(zhí)行哪些操作。 但請(qǐng)注意,如果用戶沒(méi)有足夠的信息來(lái)做出正確的決策,這個(gè)方法就不適用。
我們之前談到的許多一般原則仍然適用在這里。 你可以在我上一篇文章中找到更多詳細(xì)信息。
如何設(shè)計(jì)和管理AI產(chǎn)品?
- 定義好問(wèn)題并盡早測(cè)試:如果聽(tīng)到有人提議”讓我們先構(gòu)建ML模型,看看它能做什么。 ”通常要很小心,沒(méi)有定義好問(wèn)題前就試圖開(kāi)發(fā)產(chǎn)品,通常會(huì)浪費(fèi)團(tuán)隊(duì)大量時(shí)間。
- 知道何時(shí)應(yīng)該或不應(yīng)該使用ML。
- 從第一天就開(kāi)始計(jì)劃數(shù)據(jù)策略。
- 構(gòu)建ML產(chǎn)品是跨領(lǐng)域的,牽涉到的職能并不只是機(jī)器學(xué)習(xí)而已
作者:Bastiane Huang,擁有近10年產(chǎn)品及市場(chǎng)開(kāi)發(fā)管理經(jīng)驗(yàn),目前在舊金山擔(dān)任 AI/Robotics新創(chuàng)公司產(chǎn)品經(jīng)理,專注于開(kāi)發(fā)機(jī)器學(xué)習(xí)軟件,用于機(jī)器人視覺(jué)和控制。
本文由 @Bastiane 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!