AI時代的門票——智能語音交互
AI時代即將到來,而語音識別便是入場券。說出一句話,也許你可以直接聽到想要的結果,也許機器會直接執(zhí)行你的命令,也許……這無限延伸的可能性,便是 AI 的魅力。
還記得2年前,度秘剛發(fā)布的時候,心情激動的我沒怎么思考就洋洋灑灑扯了一通《度秘:你好,521號機器人為您服務》。記得那時才大三,感覺百度發(fā)布的度秘機器人好牛逼,天文地理無所不知。但那時的度秘也僅僅是個加強版的微軟小冰,只不過是連接了更多的服務,因為百度在這方面有著天然的優(yōu)勢。那時的度秘雖然看起來也很全能,但從未自然的融入實際生活場景中,因為究其本質,它是以擬人對話形式整合線下服務與功能。
而如今,親身體驗了這場技術變革帶來的改變,不禁感慨,AI時代即將到來,而語音識別便是入場券。說出一句話,也許你可以直接聽到想要的結果,也許機器會直接執(zhí)行你的命令,也許……這無限延伸的可能性,便是 AI 的魅力。
新一代交互形式:語音識別
時光飛逝,短短兩年,互聯(lián)網行業(yè)日新月異,經歷了AR、VR的變革,又見證了阿法狗的崛起。人工智能這個詞似乎離我們越來越近。通常來講,每一次全新時代的到來,都是因為一個傳統(tǒng)的形式被顛覆。
比如,多年前我們的手機硬件由非智能機變?yōu)橹悄軝C,交互方式由物理按鍵變?yōu)槭謩莶僮?。并伴隨著網速的提升,從而由PC互聯(lián)網時代逐漸進入移動互聯(lián)網時代,而這一次,變革便是從語音識別開始。
艾媒數(shù)據(jù)的調研結果
可以看出,語音識別高居第一,其次是智能家居。這兩方面都有一個共同點在于:它們都是兩種全新的交互形式。
語音識別意味著將無形的聲音轉化為有形的執(zhí)行信息,而傳統(tǒng)交互形式是通過文字,或是通過肢體動作來完成命令的執(zhí)行。
智能家居意味著將家庭場景下的電器通過網絡的構建與連接,形成物聯(lián)網,將之變得更加自動化,隨用戶的需求而自然切換狀態(tài)。
亞馬遜Echo系列產品
而現(xiàn)在,無論是國外的亞馬遜、谷歌還是國內的小米等生產智能硬件的公司,都開始極力打造家庭場景下的人工智能,而語音,便是這種人工智能交互形式的突破口。
完整的語音交互過程應該分三個步驟:聽清、聽懂、滿足。
- 聽清:當用戶的聲音從麥克風輸入時,應有拾音器記錄用戶聲音,并準確的進行識別,將最終結果反饋給AI大腦。而在這個過程中,需要軟硬件以及算法去處理所有聲音,取其精華,棄其糟粕,最終將真正的指令記錄。
- 聽懂:當大腦拿到結果后,要對其進行解析,將語音轉為文字,并進行語義分析,同樣需要強大的算法和機器學習能力,不斷去糾錯。哪些是命令詞,哪些是內容詞,要進行區(qū)分,最終普通的一句話要被拆分為命令、內容等相關類型詞。
- 滿足:當一句簡單的話被AI大腦理解,接下來的就是滿足用戶,用戶如需要查詢,便去告訴他相應內容。用戶如需要執(zhí)行動作,便去完成整個動作流程。
而事實上,這三個重要步驟,對于一家普通公司,基本是不可能完成的任務。
它要求既要有扎實的語音識別技術,又要有牛逼的語義理解能力,最后還需要有強大的內容數(shù)據(jù)去做支撐。
也難過,只有百度這樣的超級大廠,才能充分整合資源,將整個語音交互過程都涉及到。
家庭場景下的語音交互
在中國,如果想要普及一種變革,最好的場景是家庭環(huán)境,因為這種場景下,用戶的使用習慣,喜好會徹底的釋放和表達,是一種最自然,無壓力的表現(xiàn)狀態(tài),且這種場景又屬于高頻場景,覆蓋范圍廣。
家庭下的語音喚醒場景請
不僅僅是圖中這些場景,今天在百度的開發(fā)者大會會場上見到了各種家庭場景下的硬件設施,當它們一旦搭載了語音交互的系統(tǒng),便搖身一變,成了具有語音操控的智能家居。
對智能冰箱說:
“宮保雞丁怎么做”,冰箱上的顯示屏開始播放宮保雞丁教學視頻。
對智能電視說:
“我想看個賽車類電影”,電視上顯示《速度與激情》系列影片。
對智能音箱說:
“我要開party,放個激情澎湃的音樂吧”,音箱播放《Sugar》
………….
智能硬件加上語音交互,已經構建成了物聯(lián)網。相信在不久的將來,搭載了語音交互系統(tǒng)的智能家居,都可以聽你的話,你說所說的每個指令,都會直接影響到當前家居的運行狀態(tài)。甚至可以對其動作進行組合,形成物聯(lián)網+語音交互。
小米智能硬件生態(tài)圈
在我看來,最有可能率先實現(xiàn)該場景的就是小米。
小米近幾年基本完成關于智能硬件生態(tài)圈的布局,覆蓋了家庭場景下大部分高頻使用的硬件設施,并將其與手機連接在一起,使用戶通過手機可以快速的管理。本次小米電視4的發(fā)布,其中一個亮點便是:將家居中的每一個智能硬件部分都和電視,手機控制端進行連接。最終實現(xiàn)最完美的智能家居生活場景:對著電視或遙控器說一聲:關閉空調、開啟吸塵器等一切指令,通過語義識別,連接家居,執(zhí)行命令一系列動作,將智能貫徹到底。
開放的AI未來,不止于此
曾經VR技術被鼓吹的神乎其神,最終還是因硬件成本居高不下以及體驗難以提升淪為AI的泡影產物。而語音識別不應如此,百度的duer OS提供一整套語音識別的解決方案,給了許多硬件公司產品智能化的希望。
這樣一來,智能硬件的成本便可以達到有效把控。在整個語音交互部分,百度提供現(xiàn)成的SDK,并可以配套終端應用,提供開發(fā)套件。無論事實如何,宣傳效果確實達到了。若如此,接下來,語音交互能力便不再是小公司,小產品可望不可即的能力了。而最終市場上經過一批殘酷的淘汰,最終留給用戶的,便是最優(yōu)秀的軟硬件結合的產物。這無論是對用戶還是整個行業(yè),都是一個良好的發(fā)展趨勢。
以一個開發(fā)的心態(tài)迎接人工智能時代,科幻電影里的場景,即將到來。這一刻,我想到了《人工智能》,《機械姬》,《黑客帝國》。
對于未知的好奇心,要遠遠大于恐懼。
#專欄作家#
王偉華,微信公眾號:夜漫產品(learnerwwh),一只略帶文藝情懷的產品汪,擅長社交,資訊領域產品,心理學愛好者,目前正處于知識體系搭建階段。
本文原創(chuàng)發(fā)布于人人都是產品經理,未經許可,不得轉載。
簡單來說 就是日常語境中語義的智能拆分…
對,算是其中一個步驟