沒有NLP技術背景,如何造一款AI產品?
這兩年AI最火的非智能音箱莫屬,為搶占入口,市場上語音產品層出不窮,現(xiàn)已是一片紅海,智能音箱已經成大廠們的標配產品或是戰(zhàn)略中的一部分。那問題來了,沒有大廠技術基因,沒有NLP?(Natural Language Processing)?技術背景的小公司,應該怎么做“AI”智能語音產品呢?
一、選擇第三方NLP開放平臺
NLP技術沉淀周期過長,投入會很大,選擇第三方開放平臺想必是小公司最好的選擇,推薦三個AI語音開放平臺:
- 科大訊飛開放平臺;
- 百度AI開放平;
- 搜狗云知音。
二、明確技術分工
上圖是引入單個NLP的對接方案,通過任務分解,可以很清楚知道,哪些是第三方平臺做的,哪些是我們要做的。
NLP底層識別交給第三方開放平臺:
- ASR (Automatic Speech Recognition,自動語音識別):作用是將語音輸入轉化為文本文字
- NLU后臺 (Natural Language Understanding,自然語言理解):開放給使用者的一套自定義語義系統(tǒng)
- TTS (Text To Speech,文本轉語音):用于文本轉語音
- 喚醒模型:預置喚醒詞,當用戶發(fā)出該語音指令時,設備便從休眠狀態(tài)中被喚醒,并作出指定響應,喚醒詞需要反復訓練提升喚醒率,降低誤喚醒。
- OS(Operating System): OS在執(zhí)行層面發(fā)揮的巨大作用,比如:正在執(zhí)行播放音樂,你想關閉、切換歌曲,這時候OS就顯示出他的作用了
- 系統(tǒng)垂類:開放平臺所帶的系統(tǒng)技能
NLU補充、執(zhí)行干預、運營系統(tǒng)是我們需要做的。
三、談談我們要做的內容
底層工作交給開放平臺之后,我們需要搭建自己的運營管理系統(tǒng),開發(fā)自己想要的技能。
技能
相當于垂類,簡單的說就是某個應用程序,語音作為入口打開應用,像音樂、新聞、天氣、笑話等都屬于技能,比如:講個笑話,語音產品執(zhí)行打開了“笑話”應用,給你返回一條笑話內容。
技能決定了產品內容的廣度,技能可以是自制,比如:鬧鐘,也可以從第三方合作引進,像“抖音”、“微信”這樣自帶流量的第三方估計想必都想接入吧,對于一個智能產品來說,技能自然多多益善。至于需要多少,看公司的產品定位、業(yè)務、成本等因素綜合考慮。
自定義NLU
給你的技能配置語義,基于開放平臺下建立自己產品的自定義NLU語義內容,NLU主要由三個方面構成,語義文本、意圖、參數(shù)。
語義文本(Text)
語義文本設計目的是為了能聽得懂用戶聲音,同一個請求,每個用戶說法都不一樣。舉個簡單的例子,比如:幫我放首周杰倫的歌,來點周杰倫音樂,周杰倫的音樂有沒有。設計語義文本時,既要使用正規(guī)的主謂賓結構,又要考慮到特殊的說法,語義要盡量覆蓋全。
意圖(Intent)
意圖指用戶的具體請求或目的,一個意圖可以包含多個語義文本。舉例:明天早上8點叫我起床,定明天早上8點鐘的鬧鐘,都屬于新增鬧鐘意圖。通常意圖依賴于技能,舉例的意圖就屬于鬧鐘技能。
詳細參數(shù)(Detail)
讀懂用戶說什么后,需要根據(jù)用戶的意圖作出相應的反饋,參數(shù)設計就顯得特別重要了。NLP平臺做法是當語義文本輸入命中意圖后,通過接口將自定義NLU的參數(shù)傳達給后臺。參數(shù)存在的目的是要告訴后臺,接下來你要做什么。
還是用歌曲的例子來說明:
語義告訴后臺,命中MUSIC意圖,執(zhí)行音樂技能,播放作者為“周杰倫”的歌曲。
產品交互規(guī)則
拿到了NLP傳達的參數(shù)指令,接下來系統(tǒng)要做的是給用戶反饋結果。
命中到NLP系統(tǒng)自帶的技能,如果你不做干預的話,系統(tǒng)可以直接給出結果。
命中不是系統(tǒng)技能意圖或干預系統(tǒng)自帶技能,需要根據(jù)參數(shù)開發(fā)相應的功能。
最后
沒有語音識別技術同樣可以打造一款智能語音產品,它可以成為你的產品體系里的一部分。因為出身決定了它的造價成本會很高,如果脫離產品體系,將該語音產品單獨為投入市場,至少在價格上缺乏競爭力。
本文由 @?ivan 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議
哇,這文章不錯
作為同行,我想說,作者僅僅只是把用戶看到的輸入和輸出做了功能性的推導,其實可以將文本或者語音的樣本數(shù)據(jù)人工標注,簡單的算法處理,模型訓練,過擬合等說一遍,大家應該都聽得懂;再深入的ML、DL,模板就可以不用說了