大語言模型對傳統(tǒng)語音交互領域的影響
互聯(lián)網(wǎng)的發(fā)展不斷地推動著各個領域的更新變換,本篇文章以傳統(tǒng)語音交互領域為例,簡單講述大語言模型對傳統(tǒng)語音的影響及后期過程的預測,希望能對你有所啟發(fā)。
一、垂直領域如何運用LLM?
首先LLM需要巨大的模型參數(shù)量,而垂直領域優(yōu)質(zhì)數(shù)據(jù)的獲取相當困難,一些在垂類領域已經(jīng)有積淀的團隊更有優(yōu)勢。
其次大規(guī)模的數(shù)據(jù)訓練成本非常高昂,垂直行業(yè)自己下場做不太現(xiàn)實。
因此我猜測更多的團隊會采取接入大模型API 并繼續(xù)結合傳統(tǒng)模型的方式,結合LLM給出的結果對傳統(tǒng)模型進行效果改良。
實現(xiàn)落地應用還要經(jīng)過增加垂類訓練數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)預處理、模型訓練和微調(diào)、調(diào)整對話策略等過程。
如何訓練數(shù)據(jù)、調(diào)整參數(shù)這個太專業(yè),這里我們重點看看對設計過程的影響。
二、LLM對語音交互設計的影響
通過上篇對LLM技術的了解,幾乎可以確定的是有了LLM后:
- LLM在閑聊業(yè)務上有明顯優(yōu)勢,一些模型回答不上來的內(nèi)容可以給出更加豐富的兜底回復。
- LLM在上下文方面有著超越傳統(tǒng)NLP技術的優(yōu)勢,并且能夠?qū)貜蛢?nèi)容給出前后連續(xù)性的回復。對話的自然度也會有明顯提升。
因此用戶可感知的系統(tǒng)智能度會被極大提高。
那么,LLM對于垂類任務型對話的語音交互設計流程究竟有著什么影響?
1. 傳統(tǒng)語音交互設計
順著傳統(tǒng)NLP研究思路,傳統(tǒng)任務型對話設計過程中,用戶的指令經(jīng)過Domain(領域)-Intent(意圖)-Slot(詞槽)的分類過程。
首先設計師會盡量窮舉某個Domain(領域)下的高頻用戶Intent(意圖)以及對應的表達方式,這些表達方式會被標注成用戶意圖、詞槽(Slot)、實體(Entity)等用作數(shù)據(jù)訓練,試圖讓機器理解。(除了這些,還會增加用戶數(shù)據(jù)訓練)。
其次,設計師還需設定好任務型對話的邏輯(比如用戶說了導航到三里屯后希望再增加個途徑點),和執(zhí)行結果。
最后,設計師還需要針對每個用戶意圖設定好回復語,包括正常的句子結構和關鍵詞槽信息。為了避免回復語過于機械,通常還會擴寫多條。
對話模板設計在傳統(tǒng)任務型對話中扮演著重要的角色。
2.LLM對語音交互影響預測
以下是我對LLM模型加持下,垂類任務型對話的語音交互設計過程預測:
1. 模型的初期定義仍然重要,需要根據(jù)應用場景設定好模型初始性格、回復語風格,根據(jù)應用領域控制對話長度。
2. 窮舉對話意圖的工作會被減少,這些可以由大量用戶原始對話數(shù)據(jù)進行持續(xù)訓練。
3. 模型基本的判斷邏輯設定(模型在某一領域話題范圍、對話的邏輯骨架)還是有一定必要的,在上一篇中我們有提到大模型也需要「有監(jiān)督微調(diào)」的過程。有監(jiān)督微調(diào)階段可以理解為通過給到 GPT 正確的對話模板(包含案例和執(zhí)行結果)讓GPT通過案例來學習,并且形成回答??梢允沟?GPT 的能力分化到不同的技能樹。
4. 交互結果仍然需要設計或人工干預,包括:不同場景(成功、各種異常)的提示音、引導用戶按照預定流程操作,對話輪次的控制、在必要的情況下提出澄清問題或請求更多的信息等。
5. 雖然一定程度降低了前期窮舉的設計工作量,短期內(nèi)的測試工作可能會變得更加重要,在一些安全性要求較高的垂直場景需配合邊界回復測試和人工干預,以確保用戶實際使用效果不翻車。
6. 模型需要設定好上下文理解的邊界,確保用戶不同任務指令不會被記憶混淆。如果做不好這點,基于LLM的任務型對話體驗將會很災難??梢酝ㄟ^以下方式實現(xiàn):
a. 引入時間窗口機制設定時間閾值,超過一定時間后的問題就不再進行上文記憶。
b. 控制對話次數(shù),但這個方式可能會導致效果生硬一刀切。
c. 結合對話策略做判斷:結合用戶意圖檢測、對話狀態(tài)(時間機制、是否遇到狀態(tài)異常等)對整個對話管理邏輯進行設定,會有一定的設計工作量。
d.通過注意力機制,讓模型關注的重點放在主要任務話題上,從而控制上下文理解范圍。不過這需要調(diào)整模型算法。
7. 需要給到大模型調(diào)用頻次過多、調(diào)用時間過長的基礎兜底的方案。因為LLM參數(shù)量級大,通常需要更長的調(diào)用時間,我們又無法保證用戶在特定任務場景的網(wǎng)速,很可能會出現(xiàn)調(diào)用失敗的情況。(比如高速路段用戶需要緊急救援、偏僻地區(qū)、擁擠的商場信號差)有時候優(yōu)先給出傳統(tǒng)模型的回復可能更佳。
看到這你可能覺得,怎么初期設計工作并沒有因為模型結合了LLM而大量減少呢?
其實這只是模型能力搭建的一小部分,可預見的變化更多在搭建了這樣一套基礎后,大模型超強的學習和自我迭代能力可以使對話系統(tǒng)的建設更加高效:模型可通過自我優(yōu)化來提高對話質(zhì)量、通過更多數(shù)據(jù)學習減少Unknown數(shù)據(jù)的比例,并逐步減少對對話模板的依賴。
由此可見,當大家都逐步搭建起垂直領域基于LLM的語音交互系統(tǒng)后,后續(xù)的系統(tǒng)維護工作中基礎、簡單的設計工作會大幅減少,轉而需要更加專業(yè)的效果測試、對話策略調(diào)整、模型應用場景搭建工作,而這些都偏向工程類。
我猜這也就是為什么前陣子國外出現(xiàn)了「提示語工程師」崗位:
找到了一篇zhihu上的回答:https://www.zhihu.com/question/585797590/answer/2908249230
可以從該職位的具體要求中看出,這個角色涵蓋大模型效果測試、應用場景和交互式工具探索、模型推廣和一定的團隊組織職能
而另外一個回答說明了具備Coding能力對標注工作的重要性,其實在模型效果測試方面也同樣適用:https://www.zhihu.com/question/571460238/answer/2889630802
所以未來做好語音交互設計需要設計者對模型能力有較多底層知識儲備,設計師、產(chǎn)品經(jīng)理需要對垂直領域知識有足夠的理解,甚至具備一定Coding能力、產(chǎn)品搭建能力,以便和工程師團隊做更緊密的配合。此外,崗位和崗位之間的界限會被進一步模糊。
這提醒我們,日常工作之余,一定要多點技能樹,以應對AI涌現(xiàn)的超能力對現(xiàn)有崗位的沖擊。
三、結語
相比當前 ChatGPT、New Bing 已經(jīng)實現(xiàn)的 CUI 會話式交互(Conversational User Interface 基于對話的計算機用戶界面 ),VUI 語音交互要復雜的多。除了要應對復雜的語音識別中背景音、多語言、方言口音問題,用戶在純語音交互過程中的輸入時間、停頓問題、信息量、信息有效性也更加不可控。加之調(diào)用成本高的問題,大模型在VUI領域的大規(guī)模落地應用仍然需要時間。
但我相信這值得期待~
相關參考:垂直行業(yè)的語言大模型思考 (上)
本文由 @Bay 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!