高準(zhǔn)確率以后,進(jìn)階中的語(yǔ)音輸入體驗(yàn)?
編輯導(dǎo)語(yǔ):如今隨著科技的不斷發(fā)展,更多技術(shù)出現(xiàn),比如我們平常經(jīng)常會(huì)用到的語(yǔ)音輸入,由于需求變多,很多用戶需要使用語(yǔ)音輸入的功能;語(yǔ)音輸入里也需要高準(zhǔn)確率,提高用戶體驗(yàn);本文作者分享里關(guān)于語(yǔ)音輸入功能的準(zhǔn)確性,我們一起來(lái)看一下。
2020年,距離第三方輸入法陸續(xù)推出語(yǔ)音輸入功能,已經(jīng)接近10年;疫情期間,多場(chǎng)景下的語(yǔ)音輸入需求激增。
據(jù)估算,2020年第三方輸入法用戶規(guī)模接近7億,接近9成使用拼音輸入,而語(yǔ)音輸入的用戶接近4成(數(shù)據(jù)來(lái)源:MobTech,2020中國(guó)第三方輸入法行業(yè)洞察報(bào)告)。
“準(zhǔn)確”是廠商對(duì)于語(yǔ)音輸入的預(yù)期,也是持續(xù)重點(diǎn)優(yōu)化的方向;在這10年間,各大輸入法廠商公布的語(yǔ)音輸入準(zhǔn)確率越來(lái)越高,那么在目前這種高準(zhǔn)確率的輸入體驗(yàn)下,用戶對(duì)于語(yǔ)音輸入還有哪些更高的要求,這將是廠商未來(lái)必須面對(duì)和思考的問(wèn)題。
本文中,我們就聚焦語(yǔ)音輸入用戶,一起來(lái)深入探討用戶為什么使用語(yǔ)音輸入,用戶在什么場(chǎng)景中使用語(yǔ)音輸入,以及他/她心目中的語(yǔ)音輸入應(yīng)該是什么樣子。
01 研究目的和方法
1. 研究目的
了解語(yǔ)音輸入用戶的真實(shí)使用場(chǎng)景和使用動(dòng)機(jī)。
探究語(yǔ)音輸入用戶對(duì)語(yǔ)音輸入的評(píng)價(jià)標(biāo)準(zhǔn)。
2. 用戶
我們招募了15名不同行業(yè)和職業(yè)的用戶(分別是金融/保險(xiǎn)銷售、教師、大學(xué)生,和互聯(lián)網(wǎng)白領(lǐng)),均為語(yǔ)音輸入的高頻用戶;體現(xiàn)在行為上,他們每天都會(huì)多次使用到語(yǔ)音輸入,且從態(tài)度上,語(yǔ)音輸入是他們需要輸入時(shí)優(yōu)先考慮的輸入方式。
3. 研究方法
我們采用了日志+訪談的方式來(lái)了解用戶對(duì)語(yǔ)音輸入的認(rèn)知和態(tài)度,以及真實(shí)的使用行為。
通過(guò)對(duì)語(yǔ)音輸入進(jìn)行現(xiàn)場(chǎng)評(píng)測(cè)來(lái)了解用戶對(duì)語(yǔ)音輸入的評(píng)價(jià)標(biāo)準(zhǔn)。
具體如下所示:
1)日志:用戶挑選一個(gè)典型的工作日和休息日進(jìn)行語(yǔ)音輸入的日志記錄,記錄內(nèi)容包括每次語(yǔ)音輸入的使用環(huán)境,使用場(chǎng)景,使用原因和使用體驗(yàn);日志使我們能夠得到用戶真實(shí)的使用場(chǎng)景和使用體驗(yàn)。
2)訪談:結(jié)合用戶日志中記錄的語(yǔ)音輸入使用情況,通過(guò)訪談了解用戶對(duì)語(yǔ)音輸入的知曉和使用歷史,使用場(chǎng)景和動(dòng)機(jī),使用行為和體驗(yàn)。
3)現(xiàn)場(chǎng)評(píng)測(cè):用戶在現(xiàn)場(chǎng)根據(jù)自己的使用場(chǎng)景和習(xí)慣進(jìn)行語(yǔ)音輸入,并通過(guò)對(duì)比多個(gè)手機(jī)輸入法的語(yǔ)音輸入結(jié)果的優(yōu)劣;研究員對(duì)用戶的主觀評(píng)價(jià)維度進(jìn)行提煉和分析。
02 語(yǔ)音輸入的使用
在手機(jī)中進(jìn)行輸入,是最基礎(chǔ)的工具型需求,拼音輸入和語(yǔ)音輸入都是滿足需求的方式。
圖:拼音全鍵盤輸入(左)和語(yǔ)音輸入(右)
有趣的是,兩者在可用性的不同維度表現(xiàn)非常不同。在輸入場(chǎng)景下,有效性指的是用戶完成輸入的正確和完整程度。
從有效性來(lái)看,目前語(yǔ)音輸入的結(jié)果常常需要修改,因此不如鍵盤輸入;效率指的是用戶完成輸入所需要付出的資源,如時(shí)間和努力程度;在這個(gè)維度上,語(yǔ)音輸入占優(yōu)勢(shì),輸入速度更快,且用戶只需要?jiǎng)觿?dòng)嘴,更不費(fèi)力。
不同的用戶和不同的使用場(chǎng)景都會(huì)影響兩個(gè)維度的相對(duì)重要性和兩種輸入方式在不同維度的差異程度,從而解釋了不同輸入方式的選擇。
圖:可用性的三個(gè)維度:有效性(用戶完成特定目標(biāo)的正確和完整程度),效率(用戶完成特定目標(biāo)的效率,與消耗的資源,如時(shí)間、努力程度,成反比),滿意度(用戶使用產(chǎn)品時(shí)感受到的主觀滿意程度)。
1. 用戶特征
“懶”不僅是驅(qū)動(dòng)技術(shù)發(fā)展的核心動(dòng)力,也是技術(shù)嘗鮮者的共同特質(zhì)。
通過(guò)日志我們發(fā)現(xiàn),用戶選擇語(yǔ)音輸入,并不局限于走路,單手等不方便打字的情景中,當(dāng)需要輸入時(shí),語(yǔ)音輸入是優(yōu)先選擇的輸入方式,除非是不方便說(shuō)話的情景中。
在訪談中,他們會(huì)說(shuō):“可以動(dòng)動(dòng)嘴皮子就完成的事情,干嘛還要?jiǎng)邮帜兀俊边@樣的用戶,對(duì)可用性中的效率維度更為敏感。
他們樂(lè)于去嘗試各種新的方式,只要它能夠提高效率;對(duì)他們來(lái)說(shuō),改變輸入習(xí)慣的門檻更低。
2. 場(chǎng)景特征
當(dāng)使用場(chǎng)景對(duì)結(jié)果的準(zhǔn)確性要求不高,或?qū)τ谛室蟾邥r(shí),語(yǔ)音輸入比鍵盤輸入更合適。
使用語(yǔ)音輸入的一大場(chǎng)景是日常的聊天,在此場(chǎng)景下,用戶對(duì)于準(zhǔn)確性的要求沒(méi)那么高,語(yǔ)音輸入的準(zhǔn)確率也達(dá)到了較高的水平,因此鍵盤輸入在有效性維度的相對(duì)優(yōu)勢(shì)不明顯。
用戶提到在日常聊天中,需要修改的比較少,甚至有時(shí)有錯(cuò)誤也不會(huì)修改,直接發(fā)送。
另一大語(yǔ)音輸入的場(chǎng)景是工作相關(guān)的輸入量巨大且及時(shí)性要求高的場(chǎng)景。
工作相關(guān)的場(chǎng)景中,往往對(duì)準(zhǔn)確率要求很高,語(yǔ)音輸入相對(duì)于鍵盤輸入有效性差距大;但由于輸入量巨大,且及時(shí)性要求可能很高,此時(shí)語(yǔ)音輸入效率高的優(yōu)勢(shì)被放大,用戶還是會(huì)選擇語(yǔ)音輸入,這體現(xiàn)了有效性對(duì)于效率的妥協(xié)。
圖:工作相關(guān)的使用場(chǎng)景(不同顏色代表不同職業(yè)人群)
03 用戶對(duì)語(yǔ)音輸入結(jié)果的主觀評(píng)價(jià)標(biāo)準(zhǔn)
1. 研究與分析方法
研究員給出不同的場(chǎng)景,用戶結(jié)合自己的習(xí)慣,進(jìn)行語(yǔ)音輸入(三個(gè)輸入法同時(shí)進(jìn)行語(yǔ)音識(shí)別),用戶根據(jù)結(jié)果對(duì)比優(yōu)劣,并說(shuō)明原因。
研究員對(duì)用戶的主觀評(píng)價(jià)維度進(jìn)行提煉與分析:
2. 研究發(fā)現(xiàn)
從用戶主觀表述和對(duì)語(yǔ)音輸入結(jié)果的評(píng)價(jià)來(lái)看,用戶對(duì)于語(yǔ)音輸入的預(yù)期是“準(zhǔn)確”,但是它與客觀的“準(zhǔn)確”不同。
當(dāng)用戶使用語(yǔ)音輸入時(shí),盡管輸入方式是語(yǔ)音,但最終用戶希望信息呈現(xiàn)的方式是文字,而用戶評(píng)判結(jié)果的標(biāo)準(zhǔn)也是從“文本表達(dá)”的角度,即語(yǔ)音輸入的結(jié)果理想態(tài)應(yīng)和鍵盤輸入是一致的。
而從語(yǔ)音到文字的過(guò)程,可能造成結(jié)果偏差的原因有很多;例如從技術(shù)層面的識(shí)別錯(cuò)誤(語(yǔ)音識(shí)別結(jié)果和人耳識(shí)別結(jié)果存在差異),也有由于用戶采用語(yǔ)音這種方式造成的天然區(qū)別(例如用戶口語(yǔ)中不自覺(jué)的口頭禪和語(yǔ)氣詞),還有具體的表達(dá)形式上用戶可能存在偏好和習(xí)慣(例如文字的數(shù)字和阿拉伯?dāng)?shù)字的差異)。
用戶的主觀評(píng)價(jià)維度具有一定的層級(jí)特征,最底層的是基礎(chǔ)語(yǔ)音的識(shí)別,主要是句子中“關(guān)鍵結(jié)構(gòu)”的準(zhǔn)確識(shí)別,第二層是語(yǔ)義的精準(zhǔn)識(shí)別,主要包括語(yǔ)氣和情感的表達(dá),第三層是表達(dá)形式上更易閱讀,關(guān)鍵信息突出,第四層也是最高層是個(gè)性化的需求,主要是個(gè)人的習(xí)慣用法。
總的來(lái)說(shuō),從低到高,用戶的修改意愿也慢慢下降。
1)基礎(chǔ)語(yǔ)義識(shí)別準(zhǔn)確:基礎(chǔ)語(yǔ)義識(shí)別主要包括句子中“關(guān)鍵結(jié)構(gòu)”的識(shí)別錯(cuò)誤,這種錯(cuò)誤往往直接影響語(yǔ)義的表達(dá);其中比較常見(jiàn)的錯(cuò)誤是人地名的識(shí)別,用戶對(duì)于具有一定知名度的地名有較高的準(zhǔn)確識(shí)別預(yù)期。
2)精確語(yǔ)義準(zhǔn)確識(shí)別:精準(zhǔn)語(yǔ)義識(shí)別主要涉及結(jié)果的規(guī)范性、語(yǔ)氣、情感表達(dá),對(duì)語(yǔ)義有不同程度的影響。
語(yǔ)氣傳達(dá)主要通過(guò)一些語(yǔ)氣助詞和語(yǔ)氣標(biāo)點(diǎn),準(zhǔn)確的傳達(dá)對(duì)語(yǔ)音輸入來(lái)說(shuō)尤其困難;首先,個(gè)人的語(yǔ)氣相對(duì)主觀,語(yǔ)氣詞和語(yǔ)氣標(biāo)點(diǎn)的使用也有一定的群體特征(尤其是標(biāo)點(diǎn)對(duì)于語(yǔ)氣的表達(dá),例如多個(gè)句號(hào)表無(wú)語(yǔ));如“唉”和“誒”,雖然讀音相似(ai和ei),但前者往往表嘆息或惋惜,而后者表示招呼或者詫異。
3)表達(dá)形式易閱讀:當(dāng)語(yǔ)義表達(dá)沒(méi)有問(wèn)題后,用戶也會(huì)在意表達(dá)的形式是否利于閱讀; 一種錯(cuò)誤類型就是缺少斷句,造成信息接收方難以閱讀和理解句子的意思。
值得注意的是,盡管用戶希望斷句,但他在輸入時(shí),并不會(huì)在需要斷句處進(jìn)行有意的停頓;因此,判斷是否需要斷句,并不能完全根據(jù)用戶輸入時(shí)的節(jié)奏,而是需要根據(jù)語(yǔ)義進(jìn)行判斷。
4)個(gè)性化表達(dá):標(biāo)準(zhǔn)化的表達(dá)并不能滿足用戶個(gè)性化的需求。用戶在日常使用時(shí)或多或少存在一些個(gè)人特色的表達(dá)習(xí)慣與偏好;例如語(yǔ)氣詞的識(shí)別,“好的呀”可能屬于標(biāo)準(zhǔn)的表達(dá)方式,但用戶可能習(xí)慣使用“好的吖”;這些個(gè)性化的表達(dá)習(xí)慣,在社交中往往成為個(gè)人的表達(dá)風(fēng)格。
04 小結(jié)
語(yǔ)音輸入的結(jié)果最終理想態(tài)和鍵盤輸入的結(jié)果是一致的,呈現(xiàn)的都是“我”的輸入習(xí)慣。
準(zhǔn)確的語(yǔ)義表達(dá)是或許只是語(yǔ)音輸入最基礎(chǔ)的目標(biāo),進(jìn)階中的語(yǔ)音輸入需要學(xué)會(huì)的不僅僅是標(biāo)準(zhǔn)的表達(dá),更是個(gè)性化的表達(dá)。
作者:技術(shù)中臺(tái)UER小分隊(duì)
本文由 @Du Design 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 unsplash,基于CC0協(xié)議
- 目前還沒(méi)評(píng)論,等你發(fā)揮!