語(yǔ)音交互規(guī)范(第一講)
編輯導(dǎo)語(yǔ):隨著互聯(lián)網(wǎng)的發(fā)展,語(yǔ)言交互融入了我們的日常生活中。那么,關(guān)于語(yǔ)音交互規(guī)范,你又了解多少呢?本文從AI語(yǔ)音交互發(fā)展談起,總結(jié)了一些語(yǔ)音交互規(guī)范內(nèi)容,供大家參考,希望對(duì)你有所幫助。
一、AI語(yǔ)音交互發(fā)展
語(yǔ)音交互的發(fā)展經(jīng)歷了三個(gè)階段:
第一階段是上世紀(jì)80年代,語(yǔ)音交互能夠?qū)崿F(xiàn)一問(wèn)一答,前后回答并不具有內(nèi)容的相關(guān)性。隨著人工智能和深度學(xué)習(xí)的發(fā)展,機(jī)器的理解能力越來(lái)越強(qiáng)。
自從2009年開始,隨著iPhone手機(jī)siri的出現(xiàn),進(jìn)入第二階段,語(yǔ)音的對(duì)話能做到有問(wèn)有答,能夠理解上下文,但是這種應(yīng)用場(chǎng)景還比較局限。
第三階段,2014年Amazon Echo的出現(xiàn),實(shí)現(xiàn)了應(yīng)用領(lǐng)域的革新,拓展了語(yǔ)音交互的場(chǎng)景,智能語(yǔ)音交互的爆發(fā)則在2017年智能音響的發(fā)展,語(yǔ)音交互得到巨大的突破,語(yǔ)音和語(yǔ)意的理解更加準(zhǔn)確,具有代表性的產(chǎn)品有小愛音響、天貓精靈和小度音響等。
二、什么是AI語(yǔ)音交互?
AI語(yǔ)音交互通俗的理解就是:人與機(jī)器的對(duì)話。語(yǔ)音交互在技術(shù)方面講主要包括:聽(ASR)、語(yǔ)義理解(NLP)、說(shuō)(TTS)。
聽(ASR):用ASR技術(shù)把語(yǔ)音識(shí)別成文字。
語(yǔ)義理解(NLP):使用NLP技術(shù),把文字輸入轉(zhuǎn)化為文字輸出。通過(guò)語(yǔ)法判斷、上下文理解、關(guān)系理解、知識(shí)圖譜等技術(shù)。就是理解文字的含義后,把想反饋的回答以文字表達(dá)出來(lái)。
說(shuō)(TTS):使用TTS技術(shù)把文字合成為語(yǔ)音。
三、為什么要建立AI語(yǔ)音交互規(guī)范?
在公司角度:有統(tǒng)一的交互規(guī)范便于公司內(nèi)部產(chǎn)品形成統(tǒng)一的共識(shí),減少溝通的成本,提升工作的效率。
在設(shè)計(jì)師角度:對(duì)外有了統(tǒng)一的交互規(guī)范便于與產(chǎn)品、開發(fā)等人員的溝通,對(duì)內(nèi)便于組織內(nèi)的成員學(xué)習(xí)與提高。
在設(shè)計(jì)管理者的角度:對(duì)內(nèi)能達(dá)成設(shè)計(jì)共識(shí),對(duì)外提升設(shè)計(jì)組織的影響力。
在我看來(lái)交互規(guī)范是一個(gè)內(nèi)部產(chǎn)品,它隨著產(chǎn)品的生命周期迭代演進(jìn);交互規(guī)范是一套內(nèi)部共識(shí),它不僅僅解決了設(shè)計(jì)問(wèn)題,更是組織協(xié)同的解藥;交互規(guī)范是一種思維方式,不僅產(chǎn)品設(shè)計(jì),甚至自己的生活都可以借鑒設(shè)計(jì)系統(tǒng)來(lái)提升效率。
四、AI語(yǔ)音交互規(guī)范主要內(nèi)容是什么?
- 語(yǔ)音交互原則
- 語(yǔ)音交互框架
- 語(yǔ)音邏輯規(guī)范
- 語(yǔ)音控制原則
- 多模態(tài)交互
- 彈框機(jī)制
- 操作反饋
- 界面架構(gòu)
- 情感化設(shè)計(jì)
五、語(yǔ)音交互的原則
1. 通用原則
及時(shí)反饋原則。用戶在與系統(tǒng)進(jìn)行語(yǔ)音交互的過(guò)程中,系統(tǒng)要給予及時(shí)的反饋。
合適的速度。語(yǔ)音的播報(bào)速度、結(jié)果呈現(xiàn)速度、IP形象展示的速度、文字展示及糾錯(cuò)的速度都在一個(gè)合適的范圍內(nèi)。
易取原則。盡量減少用戶對(duì)操作目標(biāo)的記憶負(fù)荷,交互動(dòng)作和結(jié)果都是可見、可聽的。
人性化幫助原則。在用戶需要幫助的時(shí)候提供必要的幫助說(shuō)明和引導(dǎo)。
靈活高效原則。語(yǔ)音交互可以跨越層級(jí),直接高效的觸達(dá)目標(biāo)。
防錯(cuò)原則。在用戶意圖不明確的時(shí)候,可以向用戶詢問(wèn),還可以預(yù)測(cè)用戶的可能的意圖提示用戶。
消除歧義。交互的形式和內(nèi)容不會(huì)讓用戶感到困惑,當(dāng)用戶的命令存在歧義時(shí),通過(guò)交互的形式消除歧義,幫助用戶達(dá)成目標(biāo)。
適應(yīng)當(dāng)?shù)匚幕?。語(yǔ)音的形象IP和話術(shù)的提問(wèn)及回答都要符合用戶所處的文化背景和地域文化。
2. 交互的可用性要素
輪流對(duì)話。在對(duì)話中基于信號(hào)的傳遞, 進(jìn)行輪流的表達(dá)。回答的機(jī)制是一問(wèn)一答。
上下文串聯(lián)。在對(duì)話的語(yǔ)言中需要結(jié)合上下文的語(yǔ)意串聯(lián)起來(lái)進(jìn)行回答,這樣有助于提升對(duì)話的準(zhǔn)確性。
多樣性。對(duì)于具體的場(chǎng)景,應(yīng)該多樣的問(wèn)與答,結(jié)合情景多樣性的回答。
理解行為。在對(duì)話的過(guò)程中盡可能的真誠(chéng)、詳實(shí)和有效的理解對(duì)話的內(nèi)容。
反饋。對(duì)于用戶的請(qǐng)求應(yīng)給予反饋,無(wú)論是聲音、文字還是圖像。
語(yǔ)音的效率。在對(duì)話的過(guò)程中往往有一些隱晦的潛臺(tái)詞,在對(duì)話的過(guò)程中要理解口語(yǔ)之下的更深層次的意圖,并給予準(zhǔn)確的回答。
3. 人性化的表達(dá)
語(yǔ)言是人類表達(dá)情感的重要方式,在語(yǔ)音交互的過(guò)程中,人性化的設(shè)計(jì)必不可少的。狀態(tài)可見原則。在整個(gè)語(yǔ)音交互的對(duì)話過(guò)程中,對(duì)于場(chǎng)景、角色都需要從人與人對(duì)話的角度出發(fā)。
對(duì)話的邏輯。語(yǔ)言對(duì)話邏輯應(yīng)該遵循人類語(yǔ)言的本能,不應(yīng)該強(qiáng)迫用戶為了適應(yīng)機(jī)器對(duì)話而采用層級(jí)遞進(jìn)的邏輯思維,用戶只需要正常的表達(dá)就可以。
情感化。語(yǔ)音交互需要人格化、情感化。需要與產(chǎn)品的品牌調(diào)性相契合。語(yǔ)音人格方向特征具有:有趣、正能量、機(jī)智和溫暖等特點(diǎn)。
口語(yǔ)??谡Z(yǔ)化的交流,同時(shí)也需要避免說(shuō)顯而易見的內(nèi)容,對(duì)話需要多樣性,使體驗(yàn)更加自然。
環(huán)境貼切。使用簡(jiǎn)單易懂和約定俗成的表達(dá),盡可能的貼近用戶所在的環(huán)境。
地方語(yǔ)言。語(yǔ)言的本身要有地域的特色,語(yǔ)音的表達(dá)要有廣泛的群眾基礎(chǔ),其中方言識(shí)別也是語(yǔ)音交互中重要的技能。
六、語(yǔ)音交互框架
1. 語(yǔ)音交互流程
一次完整的語(yǔ)音交互流程,包括:?jiǎn)拘选狝SR—NLP—Skill—TTS語(yǔ)音應(yīng)答/界面結(jié)果展示(如下圖所示)。
2. 語(yǔ)音交互框架
1)根據(jù)蘋果公司的全品類設(shè)備的特點(diǎn),在語(yǔ)音框架需保持一致,兼顧mac、paid、手機(jī)大小屏和橫豎屏。Siri交互包括:Siri的狀態(tài)、ASR內(nèi)容/話術(shù)、語(yǔ)言TTS反饋。
3. 遠(yuǎn)場(chǎng)與近場(chǎng)
遠(yuǎn)場(chǎng)應(yīng)用比如Siri。直接說(shuō):“Siri”喚醒語(yǔ)音助手,喚醒后可以遠(yuǎn)程進(jìn)行語(yǔ)音交互。
近場(chǎng)應(yīng)用比如智能電視。使用遙控器,按住語(yǔ)音鍵,對(duì)著遙控器進(jìn)行語(yǔ)音近距離語(yǔ)音交互。
設(shè)計(jì)用例:
User:“Siri,定個(gè)鬧鐘”。
語(yǔ)音助手:“你要定什么時(shí)候呢?”
User:“明天早上8點(diǎn)”。
4. 正常/異常狀態(tài)
正常狀態(tài):
語(yǔ)音交互的過(guò)程中,通過(guò)TTS和Siri狀態(tài)(包括:等待與加載),來(lái)滿足及時(shí)反饋。
異常狀態(tài):
語(yǔ)音交互過(guò)程中,判斷外網(wǎng)終端->提示:待命+網(wǎng)絡(luò)異常,請(qǐng)檢查網(wǎng)絡(luò)。
注:無(wú)界面時(shí),直接TTS反饋:【網(wǎng)絡(luò)異常,請(qǐng)檢查網(wǎng)絡(luò)】(要求TTS寫在本地)。
5. 對(duì)話澄清
指語(yǔ)音主動(dòng)與用戶的對(duì)話,達(dá)到意圖的確認(rèn)。
說(shuō)明?:
① 澄清應(yīng)用于用戶意圖不清晰,必須進(jìn)行再次對(duì)話才能進(jìn)行意圖確定,否則導(dǎo)致機(jī)器執(zhí)行的任務(wù)錯(cuò)誤。
② 假如在遠(yuǎn)程的交互中,澄清的過(guò)程中,需要語(yǔ)音一直處于待命狀態(tài)(也就是無(wú)需再次喚起即可對(duì)話)。
③ 在澄清的過(guò)程中,需要關(guān)鍵詞引導(dǎo),以便于用戶表達(dá)明確的意圖。
④ 為了讓用戶能自然的回復(fù)和應(yīng)答,同時(shí)也防止自然口語(yǔ)化,語(yǔ)音的澄清話術(shù)需要采取封閉式關(guān)鍵詞引導(dǎo)。
⑤ 關(guān)鍵詞的引導(dǎo),根據(jù)人的記憶及聽力的規(guī)則,每次小于等于3個(gè),且近倆個(gè)每句話術(shù)文字在7±2之間。
設(shè)計(jì)用例:
User:“幫我定下明天鬧鐘?”(意圖不明)
語(yǔ)音助手:“你要定幾點(diǎn)鬧鐘?”(幾點(diǎn)鐘為關(guān)鍵詞)
Uesr:“明天早上8:00”(意圖明確)
6. 多倫對(duì)話
多輪對(duì)話指語(yǔ)音助手與用戶進(jìn)行一輪(一問(wèn)一答)以上的對(duì)話。
說(shuō)明:
① 應(yīng)用于意圖雖然清楚、可執(zhí)行,但任務(wù)執(zhí)行結(jié)果不清晰。如:結(jié)果的集合過(guò)大,用戶沒(méi)有找到具體的內(nèi)容。
② 多輪的引導(dǎo),應(yīng)能幫助用戶完成任務(wù),同時(shí)防止用戶自然語(yǔ)言的發(fā)散。
③ 多輪對(duì)話的輪次意味著用戶與智能設(shè)備的多次交流。在搜索工具語(yǔ)言中,語(yǔ)音交互較快的達(dá)到目標(biāo)是關(guān)鍵,輪次越多代表執(zhí)行的效果不理想,通常以小于3輪較為合適。但是在閑聊類型功能中,輪次越多,代表用戶聊天的意愿越強(qiáng)。
設(shè)計(jì)用例:
User:“能幫我找一下好看的電視劇嗎?”(意圖清晰,任務(wù)集合過(guò)大)
語(yǔ)音助手:“你要看中國(guó)的?還是國(guó)外的?”(關(guān)鍵詞引導(dǎo))
User:“中國(guó)的”(意圖明確)。
7. 話術(shù)
話術(shù)指用戶與智能設(shè)備對(duì)話的形式。
說(shuō)明:
① 話術(shù)來(lái)源:a 語(yǔ)音產(chǎn)品中需要互動(dòng)交流產(chǎn)生場(chǎng)景話術(shù);b基于人與人對(duì)話的原則撰寫而成的話術(shù)。
設(shè)計(jì)用例:
8. 話術(shù)(TTS)設(shè)計(jì)
語(yǔ)音話術(shù)指在語(yǔ)音交互過(guò)程中語(yǔ)音助手通過(guò)語(yǔ)言與用戶進(jìn)行互動(dòng),包括文字話術(shù)和語(yǔ)音話術(shù)。
說(shuō)明:
① 顯示的文字話術(shù)與語(yǔ)音助手的形象關(guān)聯(lián),并配合出現(xiàn)。
② 顯示話術(shù)與當(dāng)前語(yǔ)音邏輯相呼應(yīng)。
③ 語(yǔ)音話術(shù):用戶發(fā)出請(qǐng)求后,需要給予語(yǔ)音應(yīng)答。比如:“定今天下午3點(diǎn)鬧鐘”,反饋;“好的,已經(jīng)定好下午3點(diǎn)鬧鐘”。
④ 聲音及文字:引導(dǎo)過(guò)程中,根據(jù)業(yè)務(wù)的需要進(jìn)行聲音與文字的引導(dǎo)。
聲音引導(dǎo):引導(dǎo)澄清用戶的意圖。
文字引導(dǎo):語(yǔ)音域中的引導(dǎo)話術(shù)。
聲音+文字引導(dǎo):比如問(wèn)題及內(nèi)容的搜索結(jié)果。
⑤ 運(yùn)營(yíng)類話術(shù):針對(duì)高頻詞的結(jié)果及當(dāng)前熱門的內(nèi)容,定制化的話術(shù),目的是增加產(chǎn)品的情感,更加貼切用戶的反饋。實(shí)現(xiàn)的方式:由運(yùn)營(yíng)后臺(tái)配置。
9. 用戶對(duì)話引導(dǎo)
語(yǔ)言具有自然性,為了避免用戶語(yǔ)言的隨意泛化,導(dǎo)致用戶指令無(wú)法識(shí)別,需要在語(yǔ)音中進(jìn)行話術(shù)規(guī)范性引導(dǎo)。
說(shuō)明:
引導(dǎo)話術(shù)結(jié)構(gòu)-“喚醒方式+需引導(dǎo)的技能話術(shù)”。
① 全局性引導(dǎo)。由話術(shù)平臺(tái)統(tǒng)一部署,引導(dǎo)分為3類:
- 語(yǔ)音更能引導(dǎo);
- 當(dāng)下熱門內(nèi)容引導(dǎo);
- 新上線或主推功能引導(dǎo)。
② 相關(guān)域引導(dǎo)。在語(yǔ)音交互過(guò)程中,提供當(dāng)前領(lǐng)域的相關(guān)話術(shù)引導(dǎo)。分為兩類:
- 當(dāng)前領(lǐng)域中多維度的引導(dǎo);
- 多輪進(jìn)階式引導(dǎo)。
③ 運(yùn)營(yíng)類的引導(dǎo)。專門為運(yùn)營(yíng)類產(chǎn)品定制的語(yǔ)音話術(shù)引導(dǎo)。
10. 情感表達(dá)機(jī)制
語(yǔ)音交互人性化,是語(yǔ)音交互重要特征之一。
說(shuō)明:
基礎(chǔ)狀態(tài):
- 喚醒狀態(tài);
- 待命;
- 加載;
- 免喚醒;
- 聲源定位。
基礎(chǔ)情緒:
- 歡呼;
- 陪伴;
- 安撫;
- 幫助;
- 其他(更多的類型根據(jù)業(yè)務(wù)需要進(jìn)行添加)
基礎(chǔ)情緒的表達(dá)(如圖所示):
七、小結(jié)
語(yǔ)音交互規(guī)范主要內(nèi)容分為:
- 語(yǔ)音交互原則
- 語(yǔ)音交互框架
- 語(yǔ)音邏輯規(guī)范
- 語(yǔ)音控制原則
- 多模態(tài)交互
- 彈框機(jī)制
- 操作反饋
- 界面架構(gòu)
- 情感化設(shè)計(jì)
本篇僅寫了:(1)語(yǔ)音交互原則(2)語(yǔ)音交互框架,后續(xù)分為3篇完成,謝謝大家閱讀,后續(xù)內(nèi)容敬請(qǐng)期待!
本文由 @東哥的設(shè)計(jì)分享 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自?Unsplash,基于 CC0 協(xié)議
本文由 @東哥的設(shè)計(jì)分享 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
等更新~
這位同學(xué),你這盜用的有點(diǎn)徹底,里面的內(nèi)容有一個(gè)字是你寫的嗎?
這位雷鳥的同學(xué),你盜用的時(shí)候跟原作者申請(qǐng)過(guò)了嗎?
你用的好多圖和內(nèi)容都是我TCL的同事自己工作辛苦產(chǎn)出的工作沉淀,麻煩你刪除并道歉!
兄弟你瘦了 ,看著疲憊了
不好意思,最近太忙了~我盡量抓緊時(shí)間更新!感謝各位讀者的關(guān)注~
求更,急
大神你繼續(xù)更新啊,求更
第二講抓緊更啊。。。。