高準(zhǔn)確率以后,進(jìn)階中的語音輸入體驗(yàn)?

0 評(píng)論 9784 瀏覽 5 收藏 13 分鐘

編輯導(dǎo)語:如今隨著科技的不斷發(fā)展,更多技術(shù)出現(xiàn),比如我們平常經(jīng)常會(huì)用到的語音輸入,由于需求變多,很多用戶需要使用語音輸入的功能;語音輸入里也需要高準(zhǔn)確率,提高用戶體驗(yàn);本文作者分享里關(guān)于語音輸入功能的準(zhǔn)確性,我們一起來看一下。

2020年,距離第三方輸入法陸續(xù)推出語音輸入功能,已經(jīng)接近10年;疫情期間,多場(chǎng)景下的語音輸入需求激增。

據(jù)估算,2020年第三方輸入法用戶規(guī)模接近7億,接近9成使用拼音輸入,而語音輸入的用戶接近4成(數(shù)據(jù)來源:MobTech,2020中國第三方輸入法行業(yè)洞察報(bào)告)。

“準(zhǔn)確”是廠商對(duì)于語音輸入的預(yù)期,也是持續(xù)重點(diǎn)優(yōu)化的方向;在這10年間,各大輸入法廠商公布的語音輸入準(zhǔn)確率越來越高,那么在目前這種高準(zhǔn)確率的輸入體驗(yàn)下,用戶對(duì)于語音輸入還有哪些更高的要求,這將是廠商未來必須面對(duì)和思考的問題。

本文中,我們就聚焦語音輸入用戶,一起來深入探討用戶為什么使用語音輸入,用戶在什么場(chǎng)景中使用語音輸入,以及他/她心目中的語音輸入應(yīng)該是什么樣子。

01 研究目的和方法

1. 研究目的

了解語音輸入用戶的真實(shí)使用場(chǎng)景和使用動(dòng)機(jī)。

探究語音輸入用戶對(duì)語音輸入的評(píng)價(jià)標(biāo)準(zhǔn)。

2. 用戶

我們招募了15名不同行業(yè)和職業(yè)的用戶(分別是金融/保險(xiǎn)銷售、教師、大學(xué)生,和互聯(lián)網(wǎng)白領(lǐng)),均為語音輸入的高頻用戶;體現(xiàn)在行為上,他們每天都會(huì)多次使用到語音輸入,且從態(tài)度上,語音輸入是他們需要輸入時(shí)優(yōu)先考慮的輸入方式。

3. 研究方法

我們采用了日志+訪談的方式來了解用戶對(duì)語音輸入的認(rèn)知和態(tài)度,以及真實(shí)的使用行為。

通過對(duì)語音輸入進(jìn)行現(xiàn)場(chǎng)評(píng)測(cè)來了解用戶對(duì)語音輸入的評(píng)價(jià)標(biāo)準(zhǔn)。

具體如下所示:

1)日志:用戶挑選一個(gè)典型的工作日和休息日進(jìn)行語音輸入的日志記錄,記錄內(nèi)容包括每次語音輸入的使用環(huán)境,使用場(chǎng)景,使用原因和使用體驗(yàn);日志使我們能夠得到用戶真實(shí)的使用場(chǎng)景和使用體驗(yàn)。

2)訪談:結(jié)合用戶日志中記錄的語音輸入使用情況,通過訪談了解用戶對(duì)語音輸入的知曉和使用歷史,使用場(chǎng)景和動(dòng)機(jī),使用行為和體驗(yàn)。

3)現(xiàn)場(chǎng)評(píng)測(cè):用戶在現(xiàn)場(chǎng)根據(jù)自己的使用場(chǎng)景和習(xí)慣進(jìn)行語音輸入,并通過對(duì)比多個(gè)手機(jī)輸入法的語音輸入結(jié)果的優(yōu)劣;研究員對(duì)用戶的主觀評(píng)價(jià)維度進(jìn)行提煉和分析。

02 語音輸入的使用

在手機(jī)中進(jìn)行輸入,是最基礎(chǔ)的工具型需求,拼音輸入和語音輸入都是滿足需求的方式。

圖:拼音全鍵盤輸入(左)和語音輸入(右)

有趣的是,兩者在可用性的不同維度表現(xiàn)非常不同。在輸入場(chǎng)景下,有效性指的是用戶完成輸入的正確和完整程度。

從有效性來看,目前語音輸入的結(jié)果常常需要修改,因此不如鍵盤輸入;效率指的是用戶完成輸入所需要付出的資源,如時(shí)間和努力程度;在這個(gè)維度上,語音輸入占優(yōu)勢(shì),輸入速度更快,且用戶只需要?jiǎng)觿?dòng)嘴,更不費(fèi)力。

不同的用戶和不同的使用場(chǎng)景都會(huì)影響兩個(gè)維度的相對(duì)重要性和兩種輸入方式在不同維度的差異程度,從而解釋了不同輸入方式的選擇。

圖:可用性的三個(gè)維度:有效性(用戶完成特定目標(biāo)的正確和完整程度),效率(用戶完成特定目標(biāo)的效率,與消耗的資源,如時(shí)間、努力程度,成反比),滿意度(用戶使用產(chǎn)品時(shí)感受到的主觀滿意程度)。

1. 用戶特征

“懶”不僅是驅(qū)動(dòng)技術(shù)發(fā)展的核心動(dòng)力,也是技術(shù)嘗鮮者的共同特質(zhì)。

通過日志我們發(fā)現(xiàn),用戶選擇語音輸入,并不局限于走路,單手等不方便打字的情景中,當(dāng)需要輸入時(shí),語音輸入是優(yōu)先選擇的輸入方式,除非是不方便說話的情景中。

在訪談中,他們會(huì)說:“可以動(dòng)動(dòng)嘴皮子就完成的事情,干嘛還要?jiǎng)邮帜??”這樣的用戶,對(duì)可用性中的效率維度更為敏感。

他們樂于去嘗試各種新的方式,只要它能夠提高效率;對(duì)他們來說,改變輸入習(xí)慣的門檻更低。

2. 場(chǎng)景特征

當(dāng)使用場(chǎng)景對(duì)結(jié)果的準(zhǔn)確性要求不高,或?qū)τ谛室蟾邥r(shí),語音輸入比鍵盤輸入更合適。

使用語音輸入的一大場(chǎng)景是日常的聊天,在此場(chǎng)景下,用戶對(duì)于準(zhǔn)確性的要求沒那么高,語音輸入的準(zhǔn)確率也達(dá)到了較高的水平,因此鍵盤輸入在有效性維度的相對(duì)優(yōu)勢(shì)不明顯。

用戶提到在日常聊天中,需要修改的比較少,甚至有時(shí)有錯(cuò)誤也不會(huì)修改,直接發(fā)送。

另一大語音輸入的場(chǎng)景是工作相關(guān)的輸入量巨大且及時(shí)性要求高的場(chǎng)景。

工作相關(guān)的場(chǎng)景中,往往對(duì)準(zhǔn)確率要求很高,語音輸入相對(duì)于鍵盤輸入有效性差距大;但由于輸入量巨大,且及時(shí)性要求可能很高,此時(shí)語音輸入效率高的優(yōu)勢(shì)被放大,用戶還是會(huì)選擇語音輸入,這體現(xiàn)了有效性對(duì)于效率的妥協(xié)。

圖:工作相關(guān)的使用場(chǎng)景(不同顏色代表不同職業(yè)人群)

03 用戶對(duì)語音輸入結(jié)果的主觀評(píng)價(jià)標(biāo)準(zhǔn)

1. 研究與分析方法

研究員給出不同的場(chǎng)景,用戶結(jié)合自己的習(xí)慣,進(jìn)行語音輸入(三個(gè)輸入法同時(shí)進(jìn)行語音識(shí)別),用戶根據(jù)結(jié)果對(duì)比優(yōu)劣,并說明原因。

研究員對(duì)用戶的主觀評(píng)價(jià)維度進(jìn)行提煉與分析:

2. 研究發(fā)現(xiàn)

從用戶主觀表述和對(duì)語音輸入結(jié)果的評(píng)價(jià)來看,用戶對(duì)于語音輸入的預(yù)期是“準(zhǔn)確”,但是它與客觀的“準(zhǔn)確”不同。

當(dāng)用戶使用語音輸入時(shí),盡管輸入方式是語音,但最終用戶希望信息呈現(xiàn)的方式是文字,而用戶評(píng)判結(jié)果的標(biāo)準(zhǔn)也是從“文本表達(dá)”的角度,即語音輸入的結(jié)果理想態(tài)應(yīng)和鍵盤輸入是一致的。

而從語音到文字的過程,可能造成結(jié)果偏差的原因有很多;例如從技術(shù)層面的識(shí)別錯(cuò)誤(語音識(shí)別結(jié)果和人耳識(shí)別結(jié)果存在差異),也有由于用戶采用語音這種方式造成的天然區(qū)別(例如用戶口語中不自覺的口頭禪和語氣詞),還有具體的表達(dá)形式上用戶可能存在偏好和習(xí)慣(例如文字的數(shù)字和阿拉伯?dāng)?shù)字的差異)。

用戶的主觀評(píng)價(jià)維度具有一定的層級(jí)特征,最底層的是基礎(chǔ)語音的識(shí)別,主要是句子中“關(guān)鍵結(jié)構(gòu)”的準(zhǔn)確識(shí)別,第二層是語義的精準(zhǔn)識(shí)別,主要包括語氣和情感的表達(dá),第三層是表達(dá)形式上更易閱讀,關(guān)鍵信息突出,第四層也是最高層是個(gè)性化的需求,主要是個(gè)人的習(xí)慣用法。

總的來說,從低到高,用戶的修改意愿也慢慢下降。

1)基礎(chǔ)語義識(shí)別準(zhǔn)確:基礎(chǔ)語義識(shí)別主要包括句子中“關(guān)鍵結(jié)構(gòu)”的識(shí)別錯(cuò)誤,這種錯(cuò)誤往往直接影響語義的表達(dá);其中比較常見的錯(cuò)誤是人地名的識(shí)別,用戶對(duì)于具有一定知名度的地名有較高的準(zhǔn)確識(shí)別預(yù)期。

2)精確語義準(zhǔn)確識(shí)別:精準(zhǔn)語義識(shí)別主要涉及結(jié)果的規(guī)范性、語氣、情感表達(dá),對(duì)語義有不同程度的影響。

語氣傳達(dá)主要通過一些語氣助詞和語氣標(biāo)點(diǎn),準(zhǔn)確的傳達(dá)對(duì)語音輸入來說尤其困難;首先,個(gè)人的語氣相對(duì)主觀,語氣詞和語氣標(biāo)點(diǎn)的使用也有一定的群體特征(尤其是標(biāo)點(diǎn)對(duì)于語氣的表達(dá),例如多個(gè)句號(hào)表無語);如“唉”和“誒”,雖然讀音相似(ai和ei),但前者往往表嘆息或惋惜,而后者表示招呼或者詫異。

3)表達(dá)形式易閱讀:當(dāng)語義表達(dá)沒有問題后,用戶也會(huì)在意表達(dá)的形式是否利于閱讀; 一種錯(cuò)誤類型就是缺少斷句,造成信息接收方難以閱讀和理解句子的意思。

值得注意的是,盡管用戶希望斷句,但他在輸入時(shí),并不會(huì)在需要斷句處進(jìn)行有意的停頓;因此,判斷是否需要斷句,并不能完全根據(jù)用戶輸入時(shí)的節(jié)奏,而是需要根據(jù)語義進(jìn)行判斷。

4)個(gè)性化表達(dá):標(biāo)準(zhǔn)化的表達(dá)并不能滿足用戶個(gè)性化的需求。用戶在日常使用時(shí)或多或少存在一些個(gè)人特色的表達(dá)習(xí)慣與偏好;例如語氣詞的識(shí)別,“好的呀”可能屬于標(biāo)準(zhǔn)的表達(dá)方式,但用戶可能習(xí)慣使用“好的吖”;這些個(gè)性化的表達(dá)習(xí)慣,在社交中往往成為個(gè)人的表達(dá)風(fēng)格。

04 小結(jié)

語音輸入的結(jié)果最終理想態(tài)和鍵盤輸入的結(jié)果是一致的,呈現(xiàn)的都是“我”的輸入習(xí)慣。

準(zhǔn)確的語義表達(dá)是或許只是語音輸入最基礎(chǔ)的目標(biāo),進(jìn)階中的語音輸入需要學(xué)會(huì)的不僅僅是標(biāo)準(zhǔn)的表達(dá),更是個(gè)性化的表達(dá)。

 

作者:技術(shù)中臺(tái)UER小分隊(duì)

本文由 @Du Design 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!