Voice Agent:AI 時代的交互界面,下一代 SaaS 入口
隨著人工智能技術(shù)的飛速發(fā)展,語音交互已經(jīng)成為新一代人機(jī)交互界面的重要組成部分。與傳統(tǒng)的文本交互相比,語音交互以其直觀、低能耗的優(yōu)勢,為用戶提供了更為便捷的體驗。本文將深入探討語音代理(Voice Agent)在實時性、準(zhǔn)確性和創(chuàng)造性方面的要求,分析其在各個場景中的應(yīng)用前景,并識別出值得高度關(guān)注的創(chuàng)業(yè)及投資機(jī)會。
Voice agent 是與人類進(jìn)行對話溝通的 AI,是下一代人機(jī)交互界面。??
和文本相比,聲音交互的優(yōu)勢主要體現(xiàn)在:
? 語音交互以其與人類自然溝通方式的高度一致性,提供了一種更為直觀和低能耗的交互體驗,而打字文本交互的使用門檻更高;
? 語音交互非常適合于簡短、即時的信息交流;
? Text copilot 往往需要人機(jī)協(xié)作,最后一公里由人類完成,voice agent 一旦落地將徹底替代人類,獨立完成交流任務(wù)。?
以上差異使 voice agent 能產(chǎn)生不同于其他模態(tài)的價值,所以我們選擇 voice agent 作為獨立市場進(jìn)行研究。
GPT-4o 是第一個實現(xiàn)端到端 voice-in, voice-out 的大模型,低延遲、高智能使下一代交互成為可能。傳統(tǒng)語音中 ASR + NLP(即使被替換為 LLM) + TTS 的延遲是用戶難以接受的,且很難沿著 scaling law 產(chǎn)生足夠智能的對話體驗。GPT-4o 的出現(xiàn)讓新的交互形態(tài)成為可能,帶來了更多應(yīng)用場景的想象。
本篇研究中,我們根據(jù)不同場景對于實時性、準(zhǔn)確性、創(chuàng)造性的不同要求搭建了分析 voice agent 能力稟賦框架,識別出了值得高度關(guān)注的創(chuàng)業(yè)及投資機(jī)會:短期內(nèi),我們較看好開發(fā)者工具和面向垂直領(lǐng)域的 voice agent workflow,長期則更期待消費者端“Killer app”的出現(xiàn)。
01 Voice Agent 全景圖
為了快速框定出端到端模型出現(xiàn)后什么領(lǐng)域會有劇烈變化、什么領(lǐng)域不會,我們搭建了以下框架來分析聲音領(lǐng)域的不同場景需求。?
象限分類標(biāo)準(zhǔn):1)縱軸是該場景是否對實時性敏感,上方的需要實時在線的回答,下方的可以離線完成聲音制作。2)橫軸是區(qū)分該場景準(zhǔn)確度還是創(chuàng)造力更重要,左側(cè)的要求 voice agent 能精準(zhǔn)的解決問題或念出文稿,右側(cè)的需要 voice agent 更有創(chuàng)造力和表現(xiàn)力,能給出隨機(jī)應(yīng)變的回答。
? 第一象限(右上):是端到端模型帶來最大積極影響的。需要實時回答,但對 AI 交流內(nèi)容的容錯率和自由度比較高,典型的場景有:陪伴、心理療愈。
? 第二象限(左上):同時要求實時回答和高準(zhǔn)確度,目前是落地難度最大的場景,需要像真人一樣可靠。這需要通過對 latency 和 RAG workflow 的極致優(yōu)化,常見場景有:call center、銷售、客服、教育。
? 第三象限(左下):可以離線完成,但要求 voice agent 能按臺本發(fā)揮,因此是 TTS 技術(shù)最好的使用場景。常見場景:有聲書、短視頻配音、模板化外呼電話。
? 第四象限(右下):這是一個想象空間比較大的領(lǐng)域,對創(chuàng)意要求高,但同時可以離線生成。目前比較常見的用例是:音樂生成、npc 語音生成。
根據(jù)以上分析框架,我們認(rèn)為有以下幾個值得高度關(guān)注的創(chuàng)業(yè)和投資機(jī)會。類比開發(fā)軟件時,前端和后端必然是分離的。聲音領(lǐng)域前端的機(jī)會在于 TTS,后端的機(jī)會在于 enterprise workflow,同時也存在端到端的應(yīng)用機(jī)會:
1)療愈/陪伴類 voice agent(第一象限):端到端模型解鎖下一代交互形態(tài),在教育、陪伴等領(lǐng)域出現(xiàn) killer app。
2)Enterprise workflow(第二象限):企業(yè)使用時最大的痛點在于如何解決 corner case(邊緣場景) 的準(zhǔn)確性,planning & RAG workflow 在這里就非常重要。同時,加入了 RAG 之后如何優(yōu)化 latency 提升用戶體驗也很關(guān)鍵
3)TTS(第三象限):LLM 是大腦,但開發(fā)者仍需要 interface 的可控性。11 Labs 這樣公司的價值持續(xù)存在。
前面我們提到 4o 這樣的端到端模型取代的是 ASR + LLM + TTS 的鏈路,那這幾個創(chuàng)業(yè)方向在整個工作流中處在什么位置?
我們根據(jù)目標(biāo)客戶將其分為開發(fā)者(To Developer),企業(yè)用戶( To Enterprise), 消費級(To Customer) 三個不同類型進(jìn)行梳理,這三個領(lǐng)域的成熟度和壁壘、價值各不相同。以下為結(jié)論,我們會在第二部分進(jìn)行詳細(xì)分析說明。???????????
To Developer:
? 定義:指的是面向開發(fā)者的 API 或開發(fā)平臺,包含 tts 那樣的單點模型、也包括把各 API 連接起來的平臺公司。
? 價值:高短期價值,所有需要搭建 voice agent 的團(tuán)隊都需要快速搭建的工具來縮短開發(fā)周期;長期價值不明確,業(yè)務(wù)真正依賴 voice agent 的公司最終一定會選擇自建。
? 壁壘:中,其中部分公司有一定的技術(shù)壁壘,部分公司只是其他技術(shù)產(chǎn)品的連接器??赡鼙籩2e大模型顛覆。
? 重要方向:TTS,emotion engine,RTC,F(xiàn)ull stack platform
? 值得關(guān)注的公司:
11labs:作為海外獨角獸持續(xù)追蹤的公司,我們認(rèn)為 11 labs 是目前最好的 TTS 公司,它憑借完勝競品的聲音克隆體驗和聲音質(zhì)量獲得了市場的關(guān)注和認(rèn)可,業(yè)務(wù)收入增長迅速;
Hume AI:唯一相對成熟的 emotion engine,比 4o 更早實現(xiàn)了有高質(zhì)量語義情感的對話;
LiveKit:GPT-4o RTC 方案提供者;
Bland AI:Full stack 平臺中自有模型方案最成熟的公司;
Retell AI:Full stack 平臺中用戶體驗較好的公司。
To Enterprise:
? 定義:面向企業(yè)用戶的 voice agent,既包括為銷售、醫(yī)療等垂直領(lǐng)域設(shè)計的 AI phone agent,也包括企業(yè)端的無代碼平臺。兩者邊界比較模糊。
? 價值:長短期價值均一般,能夠替代臨時工提供的人力服務(wù),其精確性尚未達(dá)到標(biāo)準(zhǔn);長期因為市場比較 fragmented,最多也只能在某一個垂直行業(yè)中占據(jù)比較大的份額。
? 壁壘:中等,壁壘主要來自于 GTM 和業(yè)務(wù) SOP 積累,其他主要依賴模型能力提升。
? 重要方向:Sales and Customers agent, Training and Recruiting
? 值得關(guān)注的公司:
Sierra:Sequoia、Benchmark 投資, 團(tuán)隊實力強(qiáng),資源豐富;
Sema4.ai:Benchmark 和 Mayfield Fund 領(lǐng)投, 團(tuán)隊實力較強(qiáng);
Kore.ai:雖然是相對傳統(tǒng)的 AI 客服公司,但 Kore.ai 的業(yè)務(wù)綜合表現(xiàn)在整個領(lǐng)域中仍相對靠前;
Cognigy:創(chuàng)立于 2016 年、位于歐洲,值得關(guān)注的是它在過去幾年中實現(xiàn)了三位數(shù)的增長;
Hyperbound:AI 銷售角色扮演平臺,使用 voice agent 技術(shù)模擬真實的買家對話,幫助銷售團(tuán)隊提高電話銷售技巧。
To Customer:
? 定義:面向消費者的語音交互應(yīng)用,例如 AI 陪伴、療愈師、語言老師,甚至 AI 交互硬件。
? 價值:短期內(nèi)較低,目前商業(yè)化價值尚不明確,還在探索下一代交互的過程中。但長期價值高,可能出現(xiàn)下一個 AI-native killer app。
? 壁壘:中~高,讓用戶交流更流暢的產(chǎn)品形態(tài)和用戶數(shù)據(jù)是其主要壁壘。如果出現(xiàn)更明確的數(shù)據(jù)飛輪,將有強(qiáng)規(guī)模效應(yīng)。
? 重要方向:心理療愈,教育和陪伴。
? 值得關(guān)注的公司:
Sonia:除了看好 voice agent 在心理療愈領(lǐng)域的應(yīng)用外,Sonia 的團(tuán)隊背景也較為亮眼;
Clare&Me:看好 voice agent 在心理療愈領(lǐng)域的應(yīng)用,歐洲市場廣闊。
02 具體環(huán)節(jié)分析
To Developer: 機(jī)會來自搭建 voice agent 的核心要素
AI voice agent 的搭建鏈路很長,把這些工具組合起來讓 voice agent work 并不容易。這個領(lǐng)域創(chuàng)業(yè)公司的核心價值就是使開發(fā)者更快地開發(fā)出一個高質(zhì)量的 voice agent,而其中最重要的變量是端到端模型。
1. 端到端多模態(tài)模型
GPT-4o 作為多模態(tài)端到端模型有著很驚艷的效果:低延遲、真實情感表達(dá)、很強(qiáng)的語義理解能力。未來可以同時用于 entertainment & productivity 場景,作為每個人的朋友和工作助理,想象空間巨大。同時,對 voice agent 的落地還有幾個關(guān)鍵問題:
關(guān)鍵問題1:voice agent 是否真的能在企業(yè)用例上落地?
端到端模型降低 latency 的同時也降低了可控性,這是企業(yè)端落地的重要阻礙:enterprise 使用時需要精確的內(nèi)容輸出,此時就需要 decompose 和 RAG 的加入。這對端到端模型并不友好,因為其延遲優(yōu)勢會被 RAG 弱化,這時可控性、精確度和低延遲成了不可能三角。
在強(qiáng)領(lǐng)域知識的場景,可能需要端到端、易于微調(diào)的開源模型(可能是 Llama 3 8b 的語音版),才能讓 voice agent 真正落地。這時 Workflow 搭建很重要,用于解決 corner case 的精確性。
關(guān)鍵問題2:GPT-4o 以什么形式、什么時間開放 API ?
對于 to developer 的公司其 API 的開放時間和形式可能是最大的變數(shù)。目前端到端 model 推理成本相比傳統(tǒng)方法明顯更貴,這讓 API 甚至今年內(nèi)可能都不會開放。如果 OpenAI 將語音輸入輸出的接口也開放了,F(xiàn)ull stack 的平臺價值會降低,voice agent 的技術(shù)棧會變成 LLM (+emotion engine/ TTS) + streaming service。
如果 API 能開放多模態(tài)輸出的 API,語音+文字雙重輸出可以解決問題 1 中的 RAG 問題。先輸出一部分文字開始對話的前半部分,在說話的過程中完成一次 RAG,這樣可以基本避免 latency 問題。
關(guān)鍵問題3:端到端模型如何改變 voice agent 工作流?
GPT-4o 的出現(xiàn)把工作流中的很多步驟給簡化了。在端到端模型出現(xiàn)前,要搭建一個好的 voice agent 鏈條很長:
? VAD 識別發(fā)言時機(jī):
voice agent 需要判斷何時用戶說完了內(nèi)容、合適插入對話,以確保足夠互動自然。這一領(lǐng)域的算法稱為 VAD,voice automatic detection,在 LLM 出現(xiàn)前就有相關(guān)技術(shù)。
從官方 demo 中,我們能感受到 GPT-4o 的涌現(xiàn)能力對之前的技術(shù)降維打擊,尚不清楚 4o 中這一模塊是外置模塊(可能是類似 speculative encoding 那樣的 oracle model )還是 LLM 自身的能力。
? ASR 音頻轉(zhuǎn)文字:
這一領(lǐng)域的技術(shù)供給一直比較穩(wěn)定,但端到端 LLM 會對這一類模型的能力產(chǎn)生降維打擊:以更快的實時性做到高質(zhì)量的語義理解。
這個領(lǐng)域的代表公司包括:Assembly AI,OpenAI(Whisper 是開源SOTA)
? LLM 生成回答:
即使用 LLM 理解用戶意圖,生成自然的回答文本。這個過程中需要對回答推理步驟進(jìn)行 planning 拆解問題,再用 RAG 從專有數(shù)據(jù)庫中檢索回答中的相關(guān)概念。要實現(xiàn)這一點就要求 LLM 要了解對解決問題需要執(zhí)行的操作,比如下單退貨指令,并用 function call 能力分發(fā)至對應(yīng)任務(wù)上等。
? TTS 文本轉(zhuǎn)聲音:
TTS 將文本轉(zhuǎn)換為自然的語音輸出。這里可以加入更有感情和表現(xiàn)力的聲音,也可以加入固定的音色。
TTS 公司的業(yè)務(wù)主要替代傳統(tǒng)配音市場(有聲書、翻譯等),離線的個人創(chuàng)作者內(nèi)容生產(chǎn)。而 voice agent 則對實時性要求非常高,因此當(dāng)前 TTS 和 voice agent 相關(guān)度還比較低。兩者對 voice 評估的目標(biāo)不同,11labs 客戶要求的是高質(zhì)量的聲音,而 voice agent 用戶要求的是高質(zhì)量的語義回答和 low latency。需求的不同讓 11labs 相對難被沖擊到,interface 層不會直接被 LLM 大腦沖擊到。
關(guān)于 GPT-4o 的影響,使用 4o 不一定必須用其自帶的 TTS。TTS 位于大模型內(nèi),對開發(fā)者不太友好??蛻艨赡苄枰鄻踊穆曇裟J?,如定制化或卡通化風(fēng)格。未來最值得關(guān)注的是 4o API 是否同時支持Voice 和 Text 雙頭輸出。
代表公司:11labs,Wellsaid,play.ht
? 讓對話更加生動的情感引擎(Emotion engine):
Voice agent 在客服、陪伴等場景中都非常需要理解人類的情感表達(dá),并盡可能模擬出人類表達(dá)時的情感,支持這樣能力的技術(shù)便被稱為 emotion engine。
代表公司 Hume AI 是目前唯一效果不錯的 emotion engine。Hume AI 的 API 接口背后是一個“共情大模型”(eLLM)驅(qū)動,它能夠完成情感理解、共情回應(yīng)、通過個性化建議和干預(yù)幫助用戶管理情感。Hume AI 不是端到端模型,可以結(jié)合其他 LLM一起使用
但 emotional engine 方向最大的風(fēng)險在于被涌現(xiàn)能力顛覆。GPT-4o 向我們證明了學(xué)習(xí)足夠多對話數(shù)據(jù)的端到端多模態(tài)模型自己能涌現(xiàn)出對人類情感的模仿能力,Hume 的能力很可能被降維打擊。
代表公司:Hume AI
? 用RTC 降低 streaming latency:
這類技術(shù)接口的價值是降低 LLM 交互的速度,讓其交互對用戶更絲滑無感。Voice agent 需要選用合適的 streaming service 來降低 voice agent 對話的延遲,例如 OpenAI 選擇 livekit 來降低 latency,Bland 選擇 Twillo 來接入各類語音電話。
LLM 需要實時接收用戶的音頻。由于人和 AI 都無法加速產(chǎn)生內(nèi)容,為了減少 100-200 毫秒的延遲,RTC是必須的解決方案。對于用戶的溝通文本,decoder-only transformer 無法提前讀入內(nèi)容,但 RTC 可以保證其在讀入內(nèi)容和輸入內(nèi)容時的 latency 被降到足夠低,且不同人物之間可以有并行處理和加速。
考慮到 RTC 是一個已經(jīng)發(fā)展了十年的技術(shù),其能力已經(jīng)相對 commoditize了。對于 OpenAI 這樣的團(tuán)隊,未來更有可能的是選擇招聘團(tuán)隊自建更完備的系統(tǒng)。這類玩家更可能的客戶是受到 OpenAI 名聲影響到的 voice agent applications。
代表公司:LiveKit
總的來說,在整個 vocie agent 的 workflow 中,每一個模塊,都出現(xiàn)了一些重要公司:
Source: a16z
2. Full stack 平臺
除了圍繞 voice agent 的技術(shù)鏈條提供服務(wù)外,還有一類公司是將以上各個環(huán)節(jié)打通的 Full stack 平臺。值得一提的是,這是在 GPT-4o 前就出現(xiàn)的產(chǎn)品形態(tài),幫開發(fā)者快速把 ASR + LLM + TTS 的鏈路打通??梢约?xì)分為以下兩類,核心區(qū)別在于是否自己訓(xùn)練模型:
? End2end infra:自己訓(xùn)練模型,端到端完成所有任務(wù)的公司,從轉(zhuǎn)錄、推理、文本到語音,到構(gòu)建決策圖和可配置的函數(shù)調(diào)用和 API 請求。
這個板塊的代表公司 Bland AI 是一家專注于托管客戶微調(diào)模型棧并提供低延遲通話解決方案的公司,為開發(fā)者和企業(yè)定制化語音代理以適應(yīng)特定用例。其核心產(chǎn)品是一個多功能的 AI Phone API,能夠自動化和管理各類電話呼叫,包括出站和入站呼叫、對話能力、合規(guī)工具、可擴(kuò)展性以及與現(xiàn)有系統(tǒng)的無縫集成。Bland AI致力于構(gòu)建 AI 呼叫中心,通過將語音轉(zhuǎn)換為文本并快速生成回應(yīng),同時在 LLM 中構(gòu)建防護(hù)措施以降低風(fēng)險。該公司采用訂閱模式,提供從每分鐘 0.07 美元起的定價,已獲得Acacia Venture Capital Partners、Team Ignite Ventures和Y Combinator的投資。
? Middleware router:中間件層,不自己訓(xùn)練模型而是將不同組件串聯(lián)起來。幫助企業(yè)提高了靈活性,能以最快的方式選擇自己合適的模型并將其開發(fā)為 voice agent。
在11labs 客服訪談中,我們看到有不少客戶選用 11labs 作為tts,和其他 API 一起使用,往往就采用了中間件或自建基站,而不是上文的 Full stack 平臺一體化基建。
例如, Verizon Communications 利用 11labs 為在野外工作的工程師建立 AI agent,使得工程師可以通過手機(jī)應(yīng)用程序與聊天機(jī)器人交流,通過語音來接收信息。
作為中間件的代表公司,Retell AI 提供用于構(gòu)建對話式語音 AI 代理的中間件解決方案。API 主要功能包括語音穩(wěn)定性控制、實時自動語音識別(ASR)轉(zhuǎn)錄、自定義語音以及即將推出的情感分析和環(huán)境噪聲添加等,團(tuán)隊由前字節(jié)跳動/TikTok 產(chǎn)品經(jīng)理,Google 軟件工程師,Meta 項目經(jīng)理和技術(shù)主管組成。包括 Y Combinator 在內(nèi)的投資者已經(jīng)為 Retell 投資了總計453 萬美元的資金。
To B: 新一代 Saas 入口
語音是進(jìn)入核心客戶行為(如預(yù)訂、續(xù)約、報價等)的自然入口。如果下一代SaaS解決方案能夠充分利用voice agent技術(shù),那么在2B領(lǐng)域,它們將擁有較大的增長潛力和市場優(yōu)勢。
大部分語音對話不需要很高的智能程度,相反,它們更依賴于對上下文的理解、隨時 on call 以及對客戶需求的快速響應(yīng)。有了可靠的 voice agent,企業(yè)就不再需要人工接線員來工具式地打電話,可以節(jié)省大量時間和成本。由于 To B voice agent 就是與客戶溝通的電子員工,需要了解很多相關(guān)領(lǐng)域的背景知識,因此這一個領(lǐng)域是垂直公司的機(jī)會。
以下是一些關(guān)鍵因素,解釋了為什么垂直領(lǐng)域存在市場機(jī)會:
? 呼叫類型、語氣和內(nèi)容結(jié)構(gòu):不同行業(yè)的客戶互動具有特定的模式和風(fēng)格。語音代理需要根據(jù)行業(yè)特點調(diào)整其溝通方式。比如語調(diào)、內(nèi)容結(jié)構(gòu);?
? 數(shù)據(jù)集成和工作流:每個垂直領(lǐng)域都有其獨特的數(shù)據(jù)管理和工作流程;?
? GTM 策略(GTM)和 killer feature:需要具備能夠解決特定行業(yè)痛點的能力。
? 邊緣場景難度:將電話交給AI的質(zhì)量標(biāo)準(zhǔn)非常高。這些公司最關(guān)鍵的任務(wù)就是去解決垂直領(lǐng)域里的邊緣場景,例如通用模型可能會誤解的獨特詞匯。
? 法規(guī)和許可:一些語音代理公司面臨特殊的限制和認(rèn)證需求。例如,醫(yī)療保健領(lǐng)域需要遵守 HIPAA 合規(guī)性,銷售領(lǐng)域也出現(xiàn)了針對 AI 冷呼叫的國家級別的法規(guī)。
為什么 To B 場景下的垂直解決方案相對難被端到端模型顛覆?
在垂直場景中真正解決問題,需要做嚴(yán)謹(jǐn)?shù)?RAG 和任務(wù)規(guī)劃,因此并不適合端到端模型一次生成。通常的過程是先通過文本內(nèi)容 retrieve 相關(guān)信息,再次生成文字和進(jìn)行 TTS。這時端到端模型的 latency 優(yōu)勢就不再了,關(guān)鍵難點在于領(lǐng)域數(shù)據(jù)和 workflow 的推理。
1. 企業(yè)工作流
企業(yè)工作流領(lǐng)域的公司不局限于特定行業(yè)、特定場景,而是跨行業(yè)提供服務(wù),但目前主要應(yīng)用場景仍為 sales/support。他們以 low code 平臺或 SaaS 的形式提供服務(wù)。
我們根據(jù)銷售工作流,可以將 AI 客服分為幾類:
1)營銷類外呼:售前場景因為對于模型的理解和智能能力要求較低,是目前比較好的落地場景。Voice agent可以帶來更自然的對話體驗,同時能夠結(jié)合分析歷史通話數(shù)據(jù),實現(xiàn)營銷轉(zhuǎn)化的提高。如果遇到太難的問題,LLM 也可以檢測后發(fā)給普通的客服。
2)銷售中:目前LLM還比較少的被應(yīng)用到直面leads,因為受能力限制,失敗了損失過大。但被充分應(yīng)用于客服培訓(xùn)中,一方面節(jié)省了因為電銷頻繁離職導(dǎo)致的過多培訓(xùn)時間成本;另一方面可以做到知識庫實時對齊,成為電銷的語音 copilot。
3)投訴/售后服務(wù)、客戶回訪:AI 可以幫助客服收集客戶投訴,解決簡單的售后服務(wù)問題。同時可以進(jìn)行大規(guī)模的客戶回訪,也開始被企業(yè)廣泛的采用。
代表公司:傳統(tǒng)公司以 Parloa、Kore AI 為代表;新興公司則包括 Sierra,Sema4.ai
Sierra 專注于為企業(yè)打造 AI Phone Agent,提供基于 autonomous agents 理念的軟件,結(jié)合多個模型生成響應(yīng)。由 Salesforce 前高管 Bret Taylor 和 Google 前VR負(fù)責(zé)人Clay Bavor創(chuàng)立,已獲得Sequoia和Benchmark 等投資方 1.1 億美元融資。公司采用基于結(jié)果的定價策略,客戶僅在問題解決時付費。WeightWatchers 利用 Sierra AI 提高了客戶服務(wù)效率和質(zhì)量,實現(xiàn)了高客戶滿意度和問題解決率。
2. Training and Recruiting
Training and Recruiting 是值得關(guān)注的另一大模塊。
GPT-4o 可能預(yù)示著新一代解決方案的到來。引入 voice agent 技術(shù)有助于企業(yè)降低成本并提高效率。值得注意的是,該領(lǐng)域的專業(yè)性非常強(qiáng),因為不同行業(yè)的培訓(xùn)內(nèi)容和面試測試有不同的需求。企業(yè)培訓(xùn)市場覆蓋了技術(shù)培訓(xùn)、軟技能開發(fā)、質(zhì)量培訓(xùn)、合規(guī)培訓(xùn)等多個細(xì)分領(lǐng)域,服務(wù)于零售、醫(yī)療保健、金融服務(wù)、IT 等多個垂直行業(yè)。
根據(jù) Global Industry Research 研究,Corporate Training Market 市場規(guī)模在2024年估計為 1331 億美元,并預(yù)計在預(yù)測期內(nèi)以 9.47% 的復(fù)合年增長率增長。而 Polaris 調(diào)研 Recruitment Process Outsourcing (RPO) 市場在2023年的市場規(guī)模為 87.5 億美元,預(yù)計到 2032 年將達(dá)到 333.4 億美元。在這一市場中,頭部培訓(xùn)公司包括 Skillsoft、LinkedIn Learning(微軟)、Pluralsight、Cornerstone OnDemand、Udemy for Business等。同時,頭部RPO公司有Cielo、Randstad Sourceright、Korn Ferry、Alexander Mann Solutions (AMS)。盡管市場存在一些頭部企業(yè),但并沒有形成壟斷,為創(chuàng)新公司提供了機(jī)會。招聘方向的創(chuàng)業(yè)公司如 HeyMilo、Interviewer.AI;在培訓(xùn)方向的Hyperbound和moctalk 等公司值得關(guān)注。
如 Hyperbound 是一個利用 AI 和 voice agent 的 AI 銷售角色扮演平臺,通過模擬真實買家對話來提升銷售團(tuán)隊的電話銷售技巧。該平臺通過 AI 買家模擬、角色扮演練習(xí),快速提升銷售代表的熟練程度,加速新員工入職,提高轉(zhuǎn)化率,并減少練習(xí)過程中對潛在客戶的負(fù)面影響。Hyperbound 還提供分析和反饋工具,幫助管理者評估和提升銷售團(tuán)隊表現(xiàn)。團(tuán)隊由銷售教練、AI 工程師以及前 Salesforce Einstein 工程師組成。
To C: AI 時代的交互界面
To C 產(chǎn)品的主要邏輯是,將昂貴或難以獲得的人類服務(wù),且是基于對話且可以在線完成的,替換為 AI,主要場景包括心理療愈、輔導(dǎo)、陪伴等。
早期的 AI 陪伴等應(yīng)用主要基于文字,如 character.ai,但文字形態(tài)的用戶門檻高一直限制著用戶規(guī)模。聲音比文字增加的維度:音色、情緒,讓用戶與 chatbot 交互的使用成本大幅降低。
1. Consumer Apps
對于 comsumer apps,未來可預(yù)見的確定性變化,其一是成本會大幅度降低,甚至降低 99%,從而帶來用戶規(guī)模的擴(kuò)大。對于現(xiàn)階段的 AI 教育、陪伴、心理療愈這些產(chǎn)品,如 Duolingo Max、Speak、praktika 等普遍由于 LLM 及 TTS 調(diào)用成本過高,限制了大規(guī)模的采用。如果調(diào)用成本大幅度降低,將使得企業(yè)能夠以更低的價格提供服務(wù)。
其二是由于 GPT-4o 新架構(gòu)的采用、webrtc 優(yōu)化, latency 將繼續(xù)降低,帶來更自然的交互,那么對于 c 端實時、擬人程度要求高的場景,也有較大的效果提升。
具體有 4 個應(yīng)用場景:
面向成人的教育應(yīng)用:成人教育目前主要以語言學(xué)習(xí)應(yīng)用為主,而語言學(xué)習(xí)也正是目前最適合通過語音交互進(jìn)行的領(lǐng)域,因此我們認(rèn)為 vocie agent 的發(fā)展可以讓這個領(lǐng)域直接受益。
面向兒童的教育應(yīng)用:除了語言學(xué)習(xí)外,在更高質(zhì)量的聲音輔助下,兒童學(xué)習(xí)伴侶的具象化和游戲化是創(chuàng)新的方向。
陪伴:Character.ai 和 ChatGPT Dan 的爆火已經(jīng)佐證了陪伴市場的潛力,但目前大多數(shù)應(yīng)用仍停留在簡單的 AI 朋友或虛擬伴侶階段,未來的創(chuàng)新可能包括具象化、游戲化,以及將AI伴侶集成到硬件中,實現(xiàn)隨時隨地的陪伴。
心理療愈:心理療愈是陪伴場景的升級,其核心在于情緒疏導(dǎo)和心理健康支持,但因為是醫(yī)療場景,所以關(guān)鍵挑戰(zhàn)在于合規(guī)性和避免幻覺問題。
與 Gen-AI 結(jié)合的具體案例:
1)Praktika.AI
? 產(chǎn)品:Praktika 使用 GPT-4+Unity Avatars+11labs,創(chuàng)建 voice agent 形式的 AI tutor,提供不同地域口音的 Avatar,模擬真實對話,幫助用戶克服語言障礙,提升溝通技巧;
? 差異:針對有實際英語溝通需求的用戶,如職業(yè)需求、出國留學(xué)等。與競爭對手相比,Praktika 更注重真實對話的模仿,Avatar 是其特點。
2)Ello:
面向兒童的閱讀伴侶應(yīng)用程序,為幼兒園到三年級的孩子設(shè)計,提供與孩子閱讀水平和興趣相匹配的電子書籍和紙質(zhì)書籍,幫助孩子培養(yǎng)閱讀習(xí)慣。Adaptive Learn™ 是 Ello 的 AI 引擎,能夠像一對一的教師一樣理解、適應(yīng)并響應(yīng)每個孩子的需求。
3)Sonia:
開發(fā)了 AI 驅(qū)動的認(rèn)知行為治療師(CBT),提供語音和文本會話的心理健康治療服務(wù)。為用戶提供了成本效益高、可訪問性強(qiáng)、隨時可用的心理健康治療解決方案,改善心理健康服務(wù)的可及性。
Sonia 通過手機(jī)應(yīng)用來提供完整的會話治療服務(wù),用戶可以選擇語音或文本與 AI 治療師進(jìn)行交流,這一服務(wù)收費為200 美元/年,和傳統(tǒng)的每次 200 美元的治療費用,成本極低。
2. Hardware
To C 的另一個機(jī)會是基于 voice agent 的消費級硬件,實時收集記錄用戶信息,實時交互反饋,成為更為具象的 personal assistant。但目前出現(xiàn)的出現(xiàn)的 humane、rabbit 的可用性、使用價值仍較差。
盡管尚未出現(xiàn)被廣泛認(rèn)可的“下一代硬件”,但該領(lǐng)域正積極嘗試開發(fā)新產(chǎn)品。主要有兩種嘗試方向:首先是創(chuàng)造全新的、以語音交互為核心的硬件設(shè)備,如 Humane 和 rabbit ,這些產(chǎn)品旨在提供更加自然和直觀的用戶體驗,但目前可用性、使用價值仍較差。市場上也出現(xiàn)了小型陪伴玩具,它們通過搭載 voice 交互能力,提供互動性和娛樂性,例如 curio和 moxie 這樣的產(chǎn)品,不僅能夠吸引兒童的注意力,還能在一定程度上輔助教育和情感陪伴。
與 Gen-AI結(jié)合的具體案例:
因為大家對 Humane 和 rabbit 已經(jīng)比較熟悉了,下面主要介紹兩款以 voice 為核心的游戲和陪伴類機(jī)器人:
1)Curio:
Curio Interactive Inc. 推出了 Grok、Grem和Gabbo 等 AI 玩具系列,這些玩具配備 WiFi、藍(lán)牙、揚聲器和麥克風(fēng),支持與兒童進(jìn)行語音或文本互動,通過游戲和對話提升孩子的聽力和交流技能,同時減少他們對屏幕的依賴。
2)Moxie
Moxie 是由 Embodied 公司開發(fā)的一款具有情感智能的 AI 機(jī)器人,專為 5 至 10 歲兒童設(shè)計,幫助他們克服社交焦慮和孤獨感。它能夠理解語音和面部表情,維持眼神接觸,并以肢體動作響應(yīng)互動。Moxie 還能記住過去的對話,運用特定療法如認(rèn)知行為療法,并適應(yīng)不同學(xué)習(xí)階段。
此外,Moxie 集成了先進(jìn)的對話 AI 技術(shù),能夠為多達(dá)四名兒童提供個性化互動,且在不使用客戶數(shù)據(jù)的前提下,根據(jù)用戶反饋持續(xù)更新,從而提升智能和同情心。
作者 | Cage, haina
編輯 | Siqi
本文由人人都是產(chǎn)品經(jīng)理作者【海外獨角獸】,微信公眾號:【海外獨角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
這么硬核啊,我希望作者能繼續(xù)深入挖掘相關(guān)領(lǐng)域,提供更多簡單點的內(nèi)容。