亚洲成a人77777,a在线免费视频,AV中文字幕大全免费

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

如何提升語(yǔ)音的可發(fā)現(xiàn)性，讓小白用戶(hù)也能輕松使用？

慕七和大胖

2018-07-10

2 評(píng)論 4281 瀏覽 27 收藏

14 分鐘

為什么要提升語(yǔ)音可發(fā)現(xiàn)性呢？因?yàn)楹芏鄷r(shí)候，用戶(hù)不小心說(shuō)錯(cuò)話語(yǔ)音并不懂得糾正，而且語(yǔ)音的自然感知力度也不如視覺(jué)交互。本文為了解決這些問(wèn)題，進(jìn)行了一些思考。

在很早的時(shí)候語(yǔ)音就已經(jīng)深入人們的生活，siri算是比較早的被人們熟知的語(yǔ)音助手，每天早上匆忙要離開(kāi)家之前都會(huì)說(shuō)：“Hey Siri，今天天氣”，比起解鎖找到天氣應(yīng)用，點(diǎn)擊打開(kāi)，查看天氣情況，路徑縮短很多。

我認(rèn)為這就是語(yǔ)音最大的優(yōu)點(diǎn)，縮短使用路徑，直達(dá)用戶(hù)目標(biāo)，所以智能化可持續(xù)性學(xué)習(xí)的搜索方式會(huì)是它比較重要的一種手段。那么首先讓用戶(hù)逐步熟悉了解語(yǔ)音的使用方法，才會(huì)真的將這種方便實(shí)用的交互方法融入人們的日常生活。

為什么想從語(yǔ)音的可發(fā)現(xiàn)性角度來(lái)思考方案呢？第一點(diǎn)，當(dāng)前的語(yǔ)音錯(cuò)誤后的提示很不友好，用戶(hù)說(shuō)錯(cuò)后也不知道要如何糾正；第二點(diǎn)，語(yǔ)音無(wú)法通過(guò)視覺(jué)呈現(xiàn)，自然感知力度不如視覺(jué)交互。

那么我們從哪些方面提升語(yǔ)音的可發(fā)現(xiàn)性呢？這就要來(lái)捋一捋出行時(shí)，語(yǔ)音、載體、用戶(hù)之間發(fā)生的觸點(diǎn)在哪里，在什么步驟容易出現(xiàn)問(wèn)題。

一、觸點(diǎn)：語(yǔ)音的載體

用戶(hù)在什么場(chǎng)景下接觸到語(yǔ)音，這個(gè)語(yǔ)音的載體包含哪些部分，都是非常關(guān)鍵的。

這里不對(duì)用戶(hù)進(jìn)行定位，主要是出于這樣的考慮：現(xiàn)階段為語(yǔ)音起步階段，年齡、性別的區(qū)分僅代表著接受新交互方式的難易程度。所以此階段應(yīng)當(dāng)是不斷探索語(yǔ)音更為方便的場(chǎng)景，讓人們逐步認(rèn)識(shí)到語(yǔ)音的便捷性。

那么現(xiàn)在普遍使用語(yǔ)音的場(chǎng)景有以下幾種：

家中：音箱、電視盒子、電視遙控器、手機(jī)
車(chē)內(nèi)：中控、后視鏡、HUD、手機(jī)
公共場(chǎng)合：服務(wù)機(jī)器人

這些場(chǎng)景下的載體有這形式：

有屏幕
無(wú)屏幕

公共場(chǎng)合的服務(wù)機(jī)器人這里我們不討論，他們的業(yè)務(wù)性比較強(qiáng)，是強(qiáng)業(yè)務(wù)主導(dǎo)的交互流程，和人們?nèi)粘Ｉ钪惺褂谜Z(yǔ)音的場(chǎng)景完全不同。那么就是家中有屏無(wú)屏和車(chē)內(nèi)有屏的語(yǔ)音交互討論。

二、當(dāng)前語(yǔ)音技術(shù)存在的問(wèn)題

不論何種場(chǎng)景，語(yǔ)音的技術(shù)都是類(lèi)似的，實(shí)現(xiàn)的原理也都是一樣的。這里舉例一些語(yǔ)音技術(shù)存在的問(wèn)題：

1.必須喚醒

喚醒的花樣很多，有喚醒詞、快捷喚醒詞、oneshot，業(yè)界外的人肯定不了解這都是什么東西，更可況我們想要推廣的廣大用戶(hù)呢。

這里解釋下，這些喚醒方式之間的區(qū)別：

喚醒詞：最為基礎(chǔ)的喚醒方式，一般是有固定的2-4個(gè)字作為喚醒詞，比方說(shuō)“你好小度、小愛(ài)同學(xué)”等，機(jī)器收到這樣的語(yǔ)音信號(hào)，就開(kāi)啟錄音，這時(shí)候用戶(hù)可以隨意說(shuō)話，機(jī)器將錄音文件拿去識(shí)別，這就是全部的識(shí)別的過(guò)程。

快捷喚醒詞：由于每次操作都需要說(shuō)喚醒詞才可以控制，所以快捷喚醒詞應(yīng)運(yùn)而生，有些又叫他hotwords，實(shí)現(xiàn)方式都是一樣的。選取會(huì)比較常用的幾個(gè)詞匯，比方說(shuō)“上一首、下一首、增大音量、返回主頁(yè)”等，同樣作為喚醒詞，不過(guò)和喚醒詞不同的是，這里只有喚醒，喚醒后識(shí)別到相應(yīng)操作命令，直接執(zhí)行，沒(méi)有后續(xù)的識(shí)別。

oneshot：同樣，設(shè)定幾個(gè)詞作為喚醒詞，比方說(shuō)“導(dǎo)航到、我要聽(tīng)”，機(jī)器收到這樣的語(yǔ)音信號(hào)，就開(kāi)啟錄音，這時(shí)候用戶(hù)可以隨意說(shuō)話，不過(guò)相比較喚醒詞增加一步，機(jī)器會(huì)對(duì)錄音進(jìn)行裁剪，裁剪到喚醒詞后那一段就是用戶(hù)自由說(shuō)話的命令，再拿著裁剪后的音頻文件去識(shí)別，就和使用喚醒詞操作一樣的效果。

2.錄音過(guò)程中，雜音、交談的話語(yǔ)可能會(huì)被錄入

喚醒語(yǔ)音后，會(huì)進(jìn)入錄音狀態(tài)，識(shí)別是將錄音的音頻拿去識(shí)別到喚醒詞后面的那一段音頻，錄音是無(wú)差別錄音的，雖然現(xiàn)在有各種降噪技術(shù)，但是人們對(duì)話的聲音機(jī)器是無(wú)法區(qū)別的。

3.語(yǔ)義不能完全覆蓋全場(chǎng)景

想讓機(jī)器理解這段話，就需要語(yǔ)義理解?，F(xiàn)在的做法還是依靠人工的錄入，無(wú)法靈活理解。

4.對(duì)話系統(tǒng)不夠靈活，很多執(zhí)行完一個(gè)任務(wù)之后就退出，還需重新喚醒

當(dāng)前語(yǔ)音對(duì)話系統(tǒng)雖然有不少多輪對(duì)話的場(chǎng)景，比方說(shuō)在導(dǎo)航選擇地點(diǎn)時(shí)，用戶(hù)可以說(shuō)“下一頁(yè)、第二個(gè)”或者某個(gè)地點(diǎn)分詞進(jìn)行選擇，但是看其本質(zhì)，依舊是在導(dǎo)航情境下的單輪對(duì)話，選擇某地之后就進(jìn)入導(dǎo)航退出語(yǔ)音。最主要考慮的問(wèn)題點(diǎn)還是第二個(gè)問(wèn)題無(wú)法解決。

三、家中的場(chǎng)景

家中的場(chǎng)景是語(yǔ)音交互的最好場(chǎng)景，網(wǎng)絡(luò)的穩(wěn)定程度、安靜的環(huán)境、自由的使用環(huán)境，都使得語(yǔ)音在這一場(chǎng)景中具有非常大的吸引力。

在這一場(chǎng)景中使用語(yǔ)音的載體除了音響其他都有屏幕，電視盒子、遙控器都可以配合電視屏幕使用。手機(jī)、電視都帶屏幕，但是提示方式不能和車(chē)載設(shè)備類(lèi)比，使用場(chǎng)景不同有很大的不一樣。

在家中，人處于一種相對(duì)比較舒適、靜止的狀態(tài)，他有精力或者時(shí)間去仔細(xì)看屏幕上的文字提示，那么這樣的有屏載體需要有比較多的比重出現(xiàn)說(shuō)法提示，或者下一步的引導(dǎo)，用戶(hù)數(shù)據(jù)收集的比較齊全的時(shí)候，也可以做新老手不同的操作引導(dǎo)。

智能音箱雖說(shuō)不帶屏幕，但是需要通過(guò)手機(jī)設(shè)置連接家中wifi，這樣才可以獲取云端資源，這里做交互引導(dǎo)的時(shí)候需要注意，用戶(hù)喚醒是通過(guò)智能音箱操作的，那么在手機(jī)上可以做按鈕點(diǎn)擊喚醒音箱語(yǔ)音，但不能給用戶(hù)一種幻覺(jué)：可以通過(guò)手機(jī)對(duì)話。

四、車(chē)內(nèi)的場(chǎng)景

車(chē)內(nèi)的載體不論中控、后視鏡、HUD還是手機(jī)都是有屏幕的，這就意味著可以依靠屏幕傳達(dá)部分信息給到用戶(hù)，那么這里就涉及到多模交互。何時(shí)看屏幕、何時(shí)聽(tīng)語(yǔ)音是比較好的。這全看用戶(hù)心情，當(dāng)然我們也要做到良性引導(dǎo)。

根據(jù)后臺(tái)用戶(hù)使用語(yǔ)音的數(shù)據(jù)來(lái)看，導(dǎo)航是使用頻次最高的一個(gè)領(lǐng)域，其次是音樂(lè)、電臺(tái)、天氣。所以從導(dǎo)航、音樂(lè)入手讓用戶(hù)先了解語(yǔ)音的基本使用方法。

上篇《語(yǔ)音交互中重要的引導(dǎo)設(shè)計(jì)》已經(jīng)展示了幾種引導(dǎo)方法，不過(guò)還是有不足，比方說(shuō)在首頁(yè)的位置放說(shuō)法引導(dǎo)，其實(shí)經(jīng)過(guò)一些用戶(hù)測(cè)試，發(fā)現(xiàn)那種方法并不是萬(wàn)能的，很多用戶(hù)都不會(huì)去看有什么說(shuō)法。

所以我們應(yīng)該按照使用語(yǔ)音的先后順序進(jìn)行引導(dǎo)：?jiǎn)拘?、識(shí)別。那么如果跳過(guò)新手引導(dǎo)的用戶(hù)，至少要先告訴用戶(hù)如何喚醒使用：

如果忽略這句TTS，也沒(méi)關(guān)系。在首頁(yè)的語(yǔ)音卡片上，常駐這樣一句話，提示用戶(hù)如何喚醒語(yǔ)音。

不過(guò)這種方法其實(shí)都是比較被動(dòng)的，等待用戶(hù)去發(fā)現(xiàn)，去探索，如果語(yǔ)音自己開(kāi)始對(duì)話，又會(huì)被吐槽智障，或者受到驚嚇。所以最初的產(chǎn)品策略應(yīng)該比較保守一點(diǎn)，畢竟在智能車(chē)機(jī)上語(yǔ)音只是一個(gè)很小的一部分，過(guò)多的打擾到用戶(hù)真的會(huì)有困擾。

這是我列的如何循序漸進(jìn)的教會(huì)用戶(hù)使用這樣的喚醒方式：

第一步：基本操作：導(dǎo)航去哪里，聽(tīng)什么，給誰(shuí)打電話
第二步：?jiǎn)拘堰M(jìn)行音樂(lè)操作，提示她“下一首”可以不喚醒使用
第三步：當(dāng)用戶(hù)發(fā)現(xiàn)有些可以不需要喚醒使用的，但是不知道在哪種情況下使用，那么就設(shè)置一個(gè)對(duì)話：

U：你有什么不需要我喚醒就可以說(shuō)的？

天：全部喚醒詞羅列，同時(shí)安利免喚醒的概念

升級(jí)方案：用戶(hù)肯定記不住，當(dāng)他有疑問(wèn)詢(xún)問(wèn)

U：快速導(dǎo)航是免喚醒嗎？

天：不是哦，導(dǎo)航中能免喚醒操作的有這些，您可以到哪里查看…

高級(jí)用戶(hù)：找到自己習(xí)慣的操作方式，只記住那幾個(gè)免喚醒詞，有了固定的使用操作模式

之所以想要對(duì)快捷喚醒詞作那么多的引導(dǎo)，主要是出于當(dāng)前技術(shù)限制，喚醒是無(wú)法避免的，但是高頻操作如果不采用快捷喚醒詞實(shí)現(xiàn)的話，對(duì)用戶(hù)來(lái)說(shuō)更為麻煩，每次必須喚醒，就只說(shuō)那么一個(gè)指令，語(yǔ)音的存在是為了滿(mǎn)足用戶(hù)懶惰的心理，用戶(hù)但凡覺(jué)得有點(diǎn)麻煩的時(shí)候就會(huì)逐漸減少語(yǔ)音的使用，而這個(gè)節(jié)點(diǎn)就是我們需要花功夫去細(xì)化方案的地方。

五、一些感想

關(guān)于第二個(gè)問(wèn)題點(diǎn)，開(kāi)了個(gè)腦洞，在車(chē)內(nèi)，如果搭配人臉識(shí)別、上下文理解，是不是可以去判斷用戶(hù)何時(shí)對(duì)機(jī)器說(shuō)話呢？

首先，人們?nèi)粘?duì)話時(shí)，我要和誰(shuí)說(shuō)話基本都會(huì)面朝誰(shuí)，哪怕眼神不會(huì)轉(zhuǎn)移，但是面部還是會(huì)配合對(duì)話者轉(zhuǎn)過(guò)去，這里就可以通過(guò)人臉識(shí)別看用戶(hù)喚醒后是否將面部轉(zhuǎn)過(guò)來(lái)。

第二點(diǎn)，因?yàn)樵陂_(kāi)車(chē)時(shí)，注意力肯定是高度集中的，有時(shí)候可能是不會(huì)轉(zhuǎn)動(dòng)面部，但是人們?nèi)粘５膶?duì)話遵隨的這幾個(gè)準(zhǔn)則：所說(shuō)的話是自己相信的真實(shí)信息、所說(shuō)的話滿(mǎn)足交際中所需的信息量、所說(shuō)的話和當(dāng)前對(duì)話相關(guān)、說(shuō)話清晰明了。

所以我們可以根據(jù)錄入的人們說(shuō)話的內(nèi)容判斷上下文聯(lián)系，進(jìn)而判斷是否在和機(jī)器對(duì)話。

如果是不相關(guān)的內(nèi)容其實(shí)是對(duì)機(jī)器說(shuō)的，那么此時(shí)喊下喚醒詞也是符合常理的，可以對(duì)比兩人對(duì)話，一人突然說(shuō)了其他的話題，另外一個(gè)人沒(méi)有意識(shí)到是對(duì)自己說(shuō)話的，那么說(shuō)話者肯定會(huì)要喊那人名字。所以一個(gè)豐富且符合常理的語(yǔ)音狀態(tài)反饋非常重要。

以上是我對(duì)于當(dāng)前如何提升語(yǔ)音可發(fā)現(xiàn)性以及未來(lái)可用技術(shù)解決的問(wèn)題一些探討。

語(yǔ)音其實(shí)不能只限制在車(chē)載或者是家居場(chǎng)景，因?yàn)殡S著人工智能的發(fā)展，想讓一個(gè)機(jī)器智能，肯定會(huì)有越來(lái)越多感知外界的技術(shù)：語(yǔ)音、圖像等，但是機(jī)器想要陳述或是表達(dá)，必須要用到語(yǔ)音，所以語(yǔ)音是將來(lái)人工智能的一種輸入感知的入口。所以如何更好理解人們說(shuō)的話是非常值得研究的。

作者：青絳，微信公眾號(hào)：慕七和大胖

本文由 @青絳原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash ，基于 CC0 協(xié)議

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App