一文道清語(yǔ)音轉(zhuǎn)文字市場(chǎng)(Audio-To-Text)
關(guān)于語(yǔ)音轉(zhuǎn)文字,大部分想起接觸過(guò)的會(huì)是在聊天軟件中出現(xiàn)。除此之外,語(yǔ)音轉(zhuǎn)文字還有許多應(yīng)用場(chǎng)景。對(duì)此,本文將以國(guó)內(nèi)市場(chǎng)為支點(diǎn),以全球市場(chǎng)視為目標(biāo),探尋語(yǔ)音轉(zhuǎn)寫(xiě)產(chǎn)品的諸多可能性。推薦對(duì)語(yǔ)音轉(zhuǎn)文字市場(chǎng)感興趣的小伙伴閱讀。
與以往從國(guó)內(nèi)市場(chǎng)角度的分析不同,本文將以國(guó)內(nèi)市場(chǎng)為支點(diǎn),以全球市場(chǎng)視為目標(biāo),探尋語(yǔ)音轉(zhuǎn)寫(xiě)產(chǎn)品的諸多可能性。
本文說(shuō)的語(yǔ)音轉(zhuǎn)寫(xiě),聚焦于面向C端用戶(hù)的帶語(yǔ)音轉(zhuǎn)文字功能的產(chǎn)品,不包括企業(yè)服務(wù)中的智能客服、Fintech、車(chē)載語(yǔ)音、智慧醫(yī)療場(chǎng)景下的泛語(yǔ)音轉(zhuǎn)寫(xiě)。
一、名詞解釋
語(yǔ)音轉(zhuǎn)寫(xiě):使用將音視頻信息轉(zhuǎn)化成文本信息的一種服務(wù)。
語(yǔ)音轉(zhuǎn)寫(xiě)分類(lèi):
- 實(shí)時(shí)轉(zhuǎn)寫(xiě),即流式上傳-同步獲取,可將不限時(shí)長(zhǎng)的音頻流實(shí)時(shí)識(shí)別為文字,并返回帶有時(shí)間戳的文字流;一般用于直播實(shí)時(shí)播放字幕、實(shí)時(shí)會(huì)議記錄;也可以配合機(jī)器翻譯,實(shí)現(xiàn)同傳功能
- 非實(shí)時(shí)轉(zhuǎn)寫(xiě),即已錄制音頻文件上傳-異步獲取,非實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫(xiě)將長(zhǎng)段音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù),可用于影視字幕制作、會(huì)議訪(fǎng)談?dòng)涗涋D(zhuǎn)寫(xiě)、智能客服錄音質(zhì)檢等場(chǎng)景。
ASR:指自動(dòng)語(yǔ)音識(shí)別技術(shù)(Automatic Speech Recognition),是一種將人的語(yǔ)音轉(zhuǎn)換為文本的技術(shù)。
NLP:自然語(yǔ)言處理(Natural Language Processing,NLP)是利用計(jì)算機(jī)對(duì)自然語(yǔ)言文本進(jìn)行理解、處理,并提取文本語(yǔ)義的過(guò)程。
二、如何介紹清楚語(yǔ)音轉(zhuǎn)寫(xiě)
筆者的安排是這樣的:
- 語(yǔ)音轉(zhuǎn)寫(xiě)的基本定義和概念科普,幫助讀者和筆者同頻;
- 語(yǔ)音轉(zhuǎn)寫(xiě)所在的前置背景,這是它發(fā)展的前提;
- 語(yǔ)音轉(zhuǎn)寫(xiě)的市場(chǎng)規(guī)模,這決定了它是否值得被研究;
- 語(yǔ)音轉(zhuǎn)寫(xiě)的產(chǎn)業(yè)鏈,這可以幫我們從合作視角看我們關(guān)注點(diǎn)所在的位置;
- 語(yǔ)音轉(zhuǎn)寫(xiě)的競(jìng)爭(zhēng)格局,這里是重點(diǎn),用競(jìng)爭(zhēng)視角從行業(yè)玩家身上直觀感受語(yǔ)音轉(zhuǎn)寫(xiě)的用戶(hù)-場(chǎng)景-需求和商業(yè)模式,并且筆者不僅會(huì)縱向?qū)Ρ葒?guó)內(nèi)不同語(yǔ)音轉(zhuǎn)寫(xiě)產(chǎn)品,也會(huì)橫向?qū)Ρ葒?guó)內(nèi)外語(yǔ)音轉(zhuǎn)寫(xiě)產(chǎn)品的區(qū)別,最后通過(guò)詳細(xì)拆解Notta這款明星PLG產(chǎn)品作為行業(yè)經(jīng)典案例,希望帶來(lái)啟發(fā);
- 語(yǔ)音轉(zhuǎn)寫(xiě)的發(fā)展趨勢(shì),這里主要是通過(guò)展示相關(guān)創(chuàng)業(yè)公司來(lái)闡述其可能的發(fā)展路徑;
- 語(yǔ)音轉(zhuǎn)寫(xiě)的綜合評(píng)價(jià),總結(jié)筆者對(duì)于語(yǔ)音轉(zhuǎn)寫(xiě)行業(yè)的認(rèn)知。
三、語(yǔ)音轉(zhuǎn)寫(xiě)發(fā)展的前置條件
這事能成,主要有賴(lài)于三點(diǎn),因?yàn)檎Z(yǔ)音轉(zhuǎn)寫(xiě)是有三個(gè)步驟組成的:
- 輸入
- 轉(zhuǎn)碼
- 輸出
- 輸入得更多,說(shuō)明場(chǎng)景更多,市場(chǎng)需求更多;
- 轉(zhuǎn)碼得更快,說(shuō)明成本更低,使用沒(méi)有障礙;
- 輸出得更準(zhǔn),說(shuō)明結(jié)果需要更少的修改加工,結(jié)果更滿(mǎn)意。
這三點(diǎn)如何發(fā)生了改變:
1. 輸入方面:無(wú)紙化程度極大提高,大部分的數(shù)據(jù)都是以數(shù)字化形式存儲(chǔ)
理論上,只要是人與人之間發(fā)生的信息的傳遞,都是有數(shù)字化的需要的,主要是以非結(jié)構(gòu)化數(shù)據(jù)的形式:
- 比如開(kāi)會(huì)講話(huà)的內(nèi)容,是多人之間相互的信息傳遞,需要沉淀成會(huì)議紀(jì)要;
- 比如老師講課的內(nèi)容,是一個(gè)人單方面向多個(gè)人的信息傳遞,需要沉淀成學(xué)習(xí)筆記;
- 比如采訪(fǎng)對(duì)話(huà)的內(nèi)容,是一個(gè)人和另一個(gè)人的信息傳遞,需要沉淀成實(shí)錄文檔;
- ……
這些沉淀的信息肯定不能以手寫(xiě)稿作為載體,而是要以文本形式存儲(chǔ):
- 手寫(xiě)稿存儲(chǔ)成本太高,紙多了你總會(huì)弄丟吧,時(shí)間長(zhǎng)了紙總會(huì)壞吧,要記的內(nèi)容多了,我得隨時(shí)準(zhǔn)備各種各樣尺寸的紙,以備不時(shí)之需;
- 傳輸更麻煩,手寫(xiě)稿只有作者自己能看懂,況且一次只能給一人看,這還不如印刷術(shù)發(fā)明前的人類(lèi)社會(huì)呢,信息的傳輸效率限制了世界的發(fā)展。
在未來(lái),協(xié)作越來(lái)越多,人與人發(fā)生信息傳遞的場(chǎng)景就越來(lái)越多,越來(lái)越多的信息需要被數(shù)字化記錄沉淀。
這是電子信息技術(shù)帶來(lái)的結(jié)構(gòu)性變化。
2. 轉(zhuǎn)碼方面:ASR性能提升,帶來(lái)了轉(zhuǎn)錄的實(shí)時(shí)響應(yīng)
單純的無(wú)紙化,只能催生速記員、打字員,比誰(shuí)能快速輸出文本信息,這個(gè)活又臟又累還貴,可重復(fù)性可替代性極強(qiáng),簡(jiǎn)直就是人工智能的最佳瞄準(zhǔn)對(duì)象。
輸入輸出本身就很麻煩,1個(gè)小時(shí)的音頻,人寫(xiě)需要2個(gè)小時(shí),語(yǔ)音轉(zhuǎn)錄只需要5分鐘。
3. 輸出方面:其他語(yǔ)音技術(shù)的提升,帶來(lái)了結(jié)果的可靠性
為什么說(shuō)其他,因?yàn)檫@些主要還是依附于語(yǔ)音轉(zhuǎn)文字這個(gè)技術(shù)之上對(duì)結(jié)果進(jìn)行的優(yōu)化。
- 人聲分離,一種區(qū)分不同人聲音的技術(shù),可以通過(guò)聲音來(lái)辨別某人的身份。一旦檢測(cè)到一個(gè)人的發(fā)言,系統(tǒng)就會(huì)為該發(fā)言者創(chuàng)建一個(gè)聲紋配置文件,從而分辨同一個(gè)人其他所有的語(yǔ)音;
- 多語(yǔ)種識(shí)別,對(duì)混雜的語(yǔ)言環(huán)境進(jìn)行區(qū)分,識(shí)別多人對(duì)話(huà);
- 環(huán)境降噪,對(duì)嘈雜的說(shuō)話(huà)環(huán)境進(jìn)行過(guò)濾,區(qū)分哪個(gè)是關(guān)鍵人在說(shuō)話(huà)哪個(gè)只是環(huán)境音;
- 語(yǔ)言降噪,人在說(shuō)話(huà)時(shí)畢竟不像寫(xiě)作那么嚴(yán)肅,期間夾雜著大量的口語(yǔ)和語(yǔ)氣詞甚至疊詞,需要對(duì)文本進(jìn)行精簡(jiǎn)提煉,增強(qiáng)可讀性,這屬于NLP范疇。
- ……
四、語(yǔ)音轉(zhuǎn)寫(xiě)行業(yè)發(fā)展
這個(gè)過(guò)程并非一帆風(fēng)順,語(yǔ)音轉(zhuǎn)寫(xiě)行業(yè)也是歷經(jīng)了四個(gè)發(fā)展階段的。
第一階段
在1990年-2010年,主要是人工服務(wù),即通過(guò)人工實(shí)現(xiàn)錄寫(xiě)服務(wù)。這個(gè)期間的產(chǎn)品形態(tài),是以專(zhuān)業(yè)人工服務(wù)或外包方式服務(wù)客戶(hù)。
第二階段
在2010年-2015年,轉(zhuǎn)寫(xiě)進(jìn)入互聯(lián)網(wǎng)化,這個(gè)階段引入了機(jī)器服務(wù),讓機(jī)器助力轉(zhuǎn)寫(xiě),這種服務(wù)的產(chǎn)品形態(tài)主要是以網(wǎng)頁(yè)和客戶(hù)端小工具等方式實(shí)現(xiàn)。
第三階段
在2015年-2017年,轉(zhuǎn)寫(xiě)進(jìn)入移動(dòng)化,這個(gè)階段引入人工智能和ASR技術(shù),實(shí)現(xiàn)更高精準(zhǔn)度的語(yǔ)音識(shí)別和語(yǔ)義理解,這種產(chǎn)品形態(tài)更加多元化,以APP、網(wǎng)頁(yè)、智能硬件等方式展開(kāi)。
第四階段
在2017年至今,也是當(dāng)前的階段,轉(zhuǎn)寫(xiě)進(jìn)入人機(jī)耦合階段,是人工智能與人工服務(wù)相融合的時(shí)刻,產(chǎn)品形態(tài)上仍然是以APP、網(wǎng)頁(yè)、硬件等方式,但機(jī)器與人工進(jìn)一步融合。
這是從技術(shù)角度去理解行業(yè)發(fā)展,其實(shí)其應(yīng)用形式遠(yuǎn)不止于此。
五、產(chǎn)業(yè)規(guī)模
語(yǔ)音轉(zhuǎn)寫(xiě)行業(yè)的盤(pán)子到底多大?
先看一組行業(yè)數(shù)據(jù),根據(jù)艾瑞咨詢(xún)的報(bào)告,2021年中國(guó)智能語(yǔ)音撰寫(xiě)市場(chǎng)規(guī)模約為10億元,預(yù)計(jì)2026年市場(chǎng)規(guī)模將達(dá)到38億。如果要估算全球市場(chǎng),用這個(gè)數(shù)據(jù)乘以5即可得到大致結(jié)果。
從產(chǎn)品形態(tài)來(lái)看,智能轉(zhuǎn)寫(xiě)產(chǎn)品主要包括Saas類(lèi)產(chǎn)品與本地化部署解決方案兩大類(lèi)。
這個(gè)市場(chǎng)的特點(diǎn)就是,基數(shù)不算大,10億量級(jí),但是增長(zhǎng)率相當(dāng)可觀,會(huì)有很多的增量出現(xiàn),因?yàn)檫^(guò)去是大語(yǔ)種、大企業(yè)的需求,未來(lái)將會(huì)蔓延到更多的小語(yǔ)種、方言、小企業(yè)和傳統(tǒng)企業(yè),甚至是國(guó)企。(國(guó)企是這類(lèi)Saas服務(wù)的重點(diǎn)服務(wù)對(duì)象)
下圖是2022年中國(guó)智能語(yǔ)音產(chǎn)品成熟度曲線(xiàn),可以看出語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)以及逐漸進(jìn)入成熟穩(wěn)定期。
總之,語(yǔ)音轉(zhuǎn)寫(xiě)的核心是ASR,從技術(shù)發(fā)展曲線(xiàn)來(lái)看,是語(yǔ)音技術(shù)最成熟的一項(xiàng)技術(shù)了。
ASR的準(zhǔn)確率每年都在增長(zhǎng)。
六、市場(chǎng)特征
1. 供給>需求,由需求驅(qū)動(dòng)
語(yǔ)音轉(zhuǎn)文字,本質(zhì)是提供了一種軟件服務(wù),解決了信息沉淀的效率問(wèn)題。
- 當(dāng)轉(zhuǎn)錄還是人工服務(wù)時(shí),行業(yè)是由供給驅(qū)動(dòng)的,因?yàn)檗D(zhuǎn)錄員是有限的,而且價(jià)格昂貴。
- 當(dāng)機(jī)器取代人工轉(zhuǎn)錄時(shí),已然變成了一個(gè)成熟行業(yè),此時(shí)行業(yè)變成了由需求驅(qū)動(dòng)。
既然是需求驅(qū)動(dòng),其需求來(lái)源決定了市場(chǎng)的規(guī)模和增速。
可見(jiàn)的趨勢(shì)是,在線(xiàn)會(huì)議的比例會(huì)越來(lái)越高,即使已經(jīng)進(jìn)入后疫情時(shí)代,但是企業(yè)逐步適應(yīng)了在線(xiàn)會(huì)議,隨著未來(lái)跨區(qū)域團(tuán)隊(duì)協(xié)作場(chǎng)景的增加,會(huì)有更多團(tuán)隊(duì)利用好在線(xiàn)會(huì)議。
網(wǎng)課會(huì)越來(lái)越多,網(wǎng)課不僅僅是指初高中學(xué)校的網(wǎng)課,更多的是職業(yè)教育的網(wǎng)課,當(dāng)今的成年人在上各種各樣的技能課程,典型的如公務(wù)員課程、考研課程。
2. 準(zhǔn)入門(mén)檻不高,同質(zhì)化明顯
ASR技術(shù)已經(jīng)非常成熟了,各種廠商可以提供穩(wěn)定的API和SDK,供市場(chǎng)進(jìn)行不同程度的使用,因此行業(yè)的準(zhǔn)入門(mén)檻不高,很多玩家都可以加入進(jìn)來(lái),提供相似的服務(wù)。
國(guó)內(nèi)市場(chǎng),去百度搜索語(yǔ)音轉(zhuǎn)文字,會(huì)有數(shù)十種提供類(lèi)似服務(wù)的網(wǎng)站。
國(guó)外市場(chǎng)更卷,在Google搜索audio to text,會(huì)有十幾種同質(zhì)化的網(wǎng)站。
一些差異化也只在一些細(xì)節(jié)上,比如區(qū)分說(shuō)話(huà)人、專(zhuān)業(yè)領(lǐng)域的詞庫(kù)、不同的價(jià)格策略。
可以說(shuō),單純的語(yǔ)音轉(zhuǎn)文字功能,靠轉(zhuǎn)錄的字?jǐn)?shù)或時(shí)長(zhǎng)付費(fèi),實(shí)在玩不出新花樣。
3. 市場(chǎng)多樣,贏家難以通吃
受前兩點(diǎn)影響,這個(gè)市場(chǎng)由需求驅(qū)動(dòng),且總是會(huì)有新入場(chǎng)者。
如果用戶(hù)一旦沒(méi)有轉(zhuǎn)文字需求,是不會(huì)使用的,畢竟每次使用都是要錢(qián)的。
這個(gè)模式在中國(guó)市場(chǎng)面臨一個(gè)問(wèn)題,國(guó)內(nèi)用戶(hù)不喜歡這種“pay for every use”的方式,所以會(huì)想盡辦法去找一些免費(fèi)試用的替代品。
因而很難出現(xiàn)一個(gè)贏家壟斷整個(gè)市場(chǎng),簡(jiǎn)言之,這是一個(gè)開(kāi)放競(jìng)爭(zhēng)的市場(chǎng),各種新興企業(yè)試圖圍繞著語(yǔ)音轉(zhuǎn)文字提供更多的附加價(jià)值。
下圖是國(guó)內(nèi)提供直接語(yǔ)音轉(zhuǎn)文字工具的長(zhǎng)尾廠商部分名單(不完全統(tǒng)計(jì),也不包括帶語(yǔ)音轉(zhuǎn)文字功能的產(chǎn)品比如輸入法、微信、剪映等):
如果覺(jué)得多,不妨再來(lái)看看美國(guó)市場(chǎng),仍然是不完全統(tǒng)計(jì):
相信讀者可以直觀感受到這個(gè)行業(yè)的“卷”度。
七、商業(yè)模式
語(yǔ)音轉(zhuǎn)寫(xiě)的商業(yè)模式是比較清晰的,分三種:賣(mài)軟件服務(wù),賣(mài)硬件,賣(mài)定制化。
1. 軟件服務(wù)
- 在線(xiàn)API——廠商提供接口數(shù)據(jù)在服務(wù)端進(jìn)行,特點(diǎn)是靈活性強(qiáng)、效率高,按使用次數(shù)或者使用時(shí)長(zhǎng)進(jìn)行收費(fèi)。
- 離線(xiàn)SDK——廠商提供核心算法模塊,數(shù)據(jù)在客戶(hù)端進(jìn)行,開(kāi)放性、軟件開(kāi)發(fā)兼容。
- 私有云——廠商提供私有云平臺(tái)定制化服務(wù),可以滿(mǎn)足客戶(hù)定制化需求,安全性強(qiáng)。
2. 硬件
廠商提供語(yǔ)音采集等終端硬件,有效采集語(yǔ)音數(shù)據(jù),實(shí)現(xiàn)語(yǔ)音采播編審存一體化。
3. 集成解決方案
廠商提供場(chǎng)景及行業(yè)定制化解決方案,開(kāi)發(fā)智慧媒體解決方案,滿(mǎn)足不同行業(yè)個(gè)性化需求。
八、產(chǎn)業(yè)鏈
從技術(shù)源頭到消費(fèi)端分產(chǎn)業(yè)鏈上中下游。
1. 上游
主要是由一些科技大廠來(lái)主導(dǎo),它們是整個(gè)AI行業(yè)最底層服務(wù)提供者。阿里云、騰訊云、百度開(kāi)放平臺(tái)、訊飛開(kāi)放平臺(tái)都是比較不錯(cuò)的基礎(chǔ)平臺(tái)。
語(yǔ)音識(shí)別和自然語(yǔ)言處理均為智能語(yǔ)音轉(zhuǎn)寫(xiě)的關(guān)鍵技術(shù),為解決資源浪費(fèi)項(xiàng)目之間缺少共享等問(wèn)題,基于AI平臺(tái)開(kāi)放NLP的方案應(yīng)運(yùn)而生。
2. 中游
主要是AI技術(shù)的提供者,按照各自業(yè)務(wù)特征分為四類(lèi):
(1)通俗意義的智能語(yǔ)音廠商
比如專(zhuān)門(mén)提供智能語(yǔ)音服務(wù)的訊飛聽(tīng)見(jiàn)、靈云聽(tīng)語(yǔ)。
(2)獨(dú)樹(shù)一幟的AI公司
云知聲、思必馳、商湯、依圖。
(3)互聯(lián)網(wǎng)巨頭
阿里云、百度云、騰訊云、華為云。
(4)邊緣廠商
搜狗(原來(lái)算,現(xiàn)在被收購(gòu)就不算了)、迅捷、金舟,等等。
3. 下游
這就是真正被消費(fèi)者使用的場(chǎng)景了。
(1)多人討論
比如公司里的會(huì)議:
- 1 V 1溝通,比如采訪(fǎng)、電話(huà)銷(xiāo)售、客服。
- 1 V N輸出,比如課堂、演講、直播、大會(huì)。
(2)媒體創(chuàng)作
比如視頻網(wǎng)站的字幕生成和視頻創(chuàng)作者的字幕文件。
產(chǎn)品形態(tài)上,既有訊飛聽(tīng)見(jiàn)這種直接提供轉(zhuǎn)寫(xiě)服務(wù)的產(chǎn)品,也有輸入法、微信、飛書(shū)妙記這種嵌入語(yǔ)音轉(zhuǎn)寫(xiě)的產(chǎn)品。
九、競(jìng)爭(zhēng)格局
1. 國(guó)內(nèi)競(jìng)爭(zhēng)
這里只針對(duì)面向C端市場(chǎng)的轉(zhuǎn)寫(xiě)產(chǎn)品做競(jìng)爭(zhēng)格局分析。
典型的語(yǔ)音轉(zhuǎn)寫(xiě)代表產(chǎn)品:訊飛聽(tīng)見(jiàn)。
訊飛聽(tīng)見(jiàn)是科大訊飛旗下的一款主打語(yǔ)音轉(zhuǎn)寫(xiě)的產(chǎn)品服務(wù),得益于訊飛在語(yǔ)音領(lǐng)域的深耕,訊飛聽(tīng)見(jiàn)憑借高精度轉(zhuǎn)寫(xiě)能力占據(jù)了中高端市場(chǎng),如果點(diǎn)開(kāi)它的網(wǎng)站,可以看到機(jī)器快轉(zhuǎn)和人工精轉(zhuǎn)兩種服務(wù)配合,滿(mǎn)足了商務(wù)這類(lèi)對(duì)轉(zhuǎn)寫(xiě)有高標(biāo)準(zhǔn)的嚴(yán)肅場(chǎng)景。
之前說(shuō)過(guò),對(duì)優(yōu)秀語(yǔ)音轉(zhuǎn)寫(xiě)能力的定義就是要快和準(zhǔn),快不用說(shuō)了,1小時(shí)音頻最快5分鐘出稿,相比于人類(lèi)速記員絕對(duì)是五十倍的提升,準(zhǔn)這方面,機(jī)器水平已經(jīng)達(dá)到97.5%,并且支持多國(guó)語(yǔ)言和方言,外加許多專(zhuān)業(yè)領(lǐng)域詞匯。
唯一不太親民的地方是:貴。
2個(gè)半小時(shí)轉(zhuǎn)錄收費(fèi)50元,如果不是特別需要,或者急用,一般不會(huì)輕易購(gòu)買(mǎi)。
它的競(jìng)品有很多,這類(lèi)產(chǎn)品的商業(yè)模式都比較清晰,主要解決用戶(hù)轉(zhuǎn)文字的需要。
用戶(hù)為轉(zhuǎn)文字效果付費(fèi),因此看重的是轉(zhuǎn)文字的準(zhǔn)確率,那在某些方面當(dāng)然就不能顧及到,比如“數(shù)據(jù)孤島”問(wèn)題,用戶(hù)轉(zhuǎn)文字后需要導(dǎo)出變成其他格式,至于這些轉(zhuǎn)文字的數(shù)據(jù)結(jié)果如何使用取決于用戶(hù)的實(shí)際用途,這就不要求什么用戶(hù)留存了。
這個(gè)模式在中國(guó)市場(chǎng)并不討巧,國(guó)內(nèi)用戶(hù)并不都接受這種“pay for every use”的方式,所以會(huì)想盡辦法去找一些免費(fèi)試用的替代品或者是會(huì)員制的收費(fèi)軟件。
因此這類(lèi)產(chǎn)品的高質(zhì)量用戶(hù)多為有穩(wěn)定需求和付費(fèi)能力的創(chuàng)作者、企業(yè)用戶(hù)。
訊飛聽(tīng)見(jiàn)作為行業(yè)頭部廠商,肯定是不希望做一個(gè)“用完即走”的產(chǎn)品的,如前所述,需要用到轉(zhuǎn)寫(xiě)服務(wù)的場(chǎng)景有會(huì)議、演講、課堂、采訪(fǎng)、字幕創(chuàng)作等。
符合高頻、用戶(hù)量大、付費(fèi)能力強(qiáng)一定是企業(yè)用戶(hù)的會(huì)議場(chǎng)景。因此訊飛聽(tīng)見(jiàn)選擇切入了“在線(xiàn)會(huì)議”市場(chǎng),希望通過(guò)轉(zhuǎn)寫(xiě)打通會(huì)議創(chuàng)建——預(yù)約——會(huì)議轉(zhuǎn)寫(xiě)——會(huì)議紀(jì)要的全鏈路場(chǎng)景,這樣轉(zhuǎn)寫(xiě)結(jié)果就不是一座數(shù)據(jù)孤島,而是以會(huì)議記錄的形式成為企業(yè)辦公的基礎(chǔ)設(shè)施。
說(shuō)完以轉(zhuǎn)文字為核心的寬泛型產(chǎn)品后,下面介紹第二種,以在線(xiàn)會(huì)議為核心,附帶語(yǔ)音轉(zhuǎn)文字的產(chǎn)品。
典型代表:騰訊會(huì)議、飛書(shū)妙記、釘釘閃記。
釘釘閃記提供了會(huì)議實(shí)時(shí)轉(zhuǎn)寫(xiě)和音視頻轉(zhuǎn)寫(xiě)的功能,幫助員工沉淀工作信息,快速定位到關(guān)鍵信息有助于做決策和制定計(jì)劃。對(duì)于轉(zhuǎn)寫(xiě)結(jié)果,不僅做到非常細(xì)致的分段,而且還支持編輯和高亮的功能。
飛書(shū)妙記除了基礎(chǔ)的轉(zhuǎn)寫(xiě)和編輯功能外,還提供了關(guān)鍵詞提取的功能,幫助員工快速捕捉定位相關(guān)術(shù)語(yǔ)來(lái)縱覽整篇內(nèi)容。
會(huì)議協(xié)作產(chǎn)品有著天然的優(yōu)勢(shì),因?yàn)槠髽I(yè)協(xié)同辦公是一個(gè)穩(wěn)定的流量入口,會(huì)議轉(zhuǎn)文字只是一個(gè)附加價(jià)值,重點(diǎn)在于轉(zhuǎn)文字后的團(tuán)隊(duì)協(xié)作,將會(huì)議紀(jì)要轉(zhuǎn)換成團(tuán)隊(duì)具體的決策和知識(shí),在團(tuán)隊(duì)內(nèi)部共享。
話(huà)說(shuō)回來(lái),訊飛聽(tīng)見(jiàn)從語(yǔ)音轉(zhuǎn)寫(xiě)擴(kuò)展到在線(xiàn)會(huì)議,難道是因?yàn)橛J覦在線(xiàn)會(huì)議市場(chǎng)份額而插一腳的么?
2. 海外競(jìng)爭(zhēng)
NO,我們將眼光放到國(guó)外。
國(guó)外的轉(zhuǎn)寫(xiě)市場(chǎng)發(fā)展比國(guó)內(nèi)更早,最成熟的當(dāng)然是美國(guó)。如果說(shuō)科大訊飛在海外的counterpart是Nuance,那訊飛聽(tīng)見(jiàn)在海外的counterpart是Otter,而不是siri和Alexa,
這是一款基于人工智能和深度學(xué)習(xí)的語(yǔ)音識(shí)別產(chǎn)品??偛课挥诩永D醽喼萋逅拱柾兴?,也是AI驅(qū)動(dòng)的協(xié)作筆記和生產(chǎn)力提升應(yīng)用程序提供商。
2020年Otter.ai獲得來(lái)自日本移動(dòng)運(yùn)營(yíng)商N(yùn)TT Docomo的1000萬(wàn)美元融資,并且宣布與Zoom加強(qiáng)合作關(guān)系,為Zoom會(huì)議啟動(dòng)實(shí)時(shí)字幕,并且在疫情期間實(shí)現(xiàn)了指數(shù)級(jí)增長(zhǎng)(收入同比增長(zhǎng)10倍)。
Otter.ai提供了一個(gè)AI驅(qū)動(dòng)的協(xié)作筆記記錄和生產(chǎn)力提升應(yīng)用程序,可與Zoom和Google Meet等視頻會(huì)議平臺(tái)以及電話(huà)和其他語(yǔ)音通信配合使用。
Otter Voice Meeting Notes應(yīng)用程序使用專(zhuān)有的人工智能實(shí)時(shí)生成安全、可共享、可搜索的豐富筆記,這些筆記結(jié)合了音頻、轉(zhuǎn)錄、說(shuō)話(huà)者身份、內(nèi)嵌照片和關(guān)鍵短語(yǔ)。該應(yīng)用程序在230多個(gè)國(guó)家/地區(qū)使用,現(xiàn)已錄制了超過(guò)1億次會(huì)議,涵蓋了30億分鐘。
Otter的做法反映出了國(guó)內(nèi)外市場(chǎng)一大區(qū)別。
國(guó)外企業(yè)在線(xiàn)辦公三巨頭Google Meet、ZOOM、Microsoft Teams。
大多數(shù)會(huì)議新產(chǎn)品都是圍繞著這三家作為基礎(chǔ)設(shè)施提供附加服務(wù)。
Otter也不例外。
最后介紹一款產(chǎn)品,Notta,它為語(yǔ)音轉(zhuǎn)寫(xiě)市場(chǎng)拓寬了思路,原因有二:
- 它在海外激烈的語(yǔ)音轉(zhuǎn)寫(xiě)紅海市場(chǎng)憑借差異化的體驗(yàn)成功獲得一席之地。
- 它在海外市場(chǎng)找到了高價(jià)值市場(chǎng),盈利情況相當(dāng)可觀。
語(yǔ)音轉(zhuǎn)寫(xiě)作為一項(xiàng)成熟技術(shù),門(mén)檻是不高的,行業(yè)頭部廠商和普通廠商的轉(zhuǎn)寫(xiě)精確度相差都是百分之幾,對(duì)很多用戶(hù)來(lái)說(shuō)夠用就行,因此相互之間的替代性比較強(qiáng)。
一個(gè)普通的語(yǔ)音轉(zhuǎn)寫(xiě)新玩家,想要獲得一些份額,有幾種方式:
- SEO,讓一些小白用戶(hù)首次就接觸到這個(gè)產(chǎn)品,這些用戶(hù)用習(xí)慣了大概率不會(huì)離開(kāi);
- 免費(fèi)低價(jià)策略,在有基礎(chǔ)的語(yǔ)音轉(zhuǎn)文字能力后,就靠免費(fèi)來(lái)獲得一些低價(jià)值用戶(hù),因?yàn)檫@些用戶(hù)是被頭部廠商的付費(fèi)漏斗給剩下的,這些用戶(hù)付費(fèi)意愿幾乎沒(méi)有的,用你就是圖免費(fèi),但你不可能永遠(yuǎn)免費(fèi),當(dāng)你恢復(fù)收費(fèi)的那一天,也是白嫖用戶(hù)離你而去的時(shí)刻;
- 提供除轉(zhuǎn)寫(xiě)外的附加價(jià)值,可以打破“數(shù)據(jù)孤島”,用戶(hù)為附加價(jià)值付費(fèi)。
Notta就選擇了第三種。
十、典型案例
下面介紹Notta,一款中國(guó)企業(yè)出海日本市場(chǎng)的語(yǔ)音轉(zhuǎn)文字產(chǎn)品。
這款產(chǎn)品主打的仍然是語(yǔ)音轉(zhuǎn)文字,只是對(duì)于轉(zhuǎn)文字后提供了更多的附加價(jià)值,為用戶(hù)的工作學(xué)習(xí)場(chǎng)景打造了完整的閉環(huán)體驗(yàn):
多場(chǎng)景輸入——多語(yǔ)種轉(zhuǎn)文字——編輯校對(duì)——筆記輸出——分類(lèi)管理——導(dǎo)出
1. 多場(chǎng)景輸入
用戶(hù)會(huì)以何種方式輸入音頻文件,就有多少種場(chǎng)景:
- 直接獲得音頻文件——音頻導(dǎo)入
- 錄下當(dāng)前環(huán)境中的聲音——環(huán)境實(shí)時(shí)轉(zhuǎn)錄
- 錄下當(dāng)前屏幕上的聲音——Chrome瀏覽器插件
- 開(kāi)會(huì)時(shí)錄下在線(xiàn)會(huì)議——Notta Bot會(huì)議實(shí)時(shí)轉(zhuǎn)錄
音頻導(dǎo)入和實(shí)時(shí)錄制是很通用的功能了,這里著重介紹Chrome插件和Notta Bot。
(1)Notta Add-in
插件的需求主要來(lái)源于很多有用的資料是網(wǎng)站的在線(xiàn)視頻里的,如果想把在線(xiàn)視頻轉(zhuǎn)文字需要用戶(hù)想辦法提取出音視頻,要么是用戶(hù)用手機(jī)對(duì)著電腦外音錄一遍再導(dǎo)入轉(zhuǎn)錄,要么是懂點(diǎn)技術(shù)的用戶(hù)提取出網(wǎng)站的音視頻源文件,這樣做無(wú)疑是提高用戶(hù)的使用門(mén)檻和成本。
Chrome插件可以很好地解決這個(gè)問(wèn)題,插件本身就是極具定制化的,用戶(hù)在播放在線(xiàn)音視頻時(shí)可以打開(kāi)插件錄制,播放完后就可以得到完整的轉(zhuǎn)錄文件,消除了導(dǎo)入門(mén)檻,效率大大提升。
(2)Notta Bot
Notta Bot是一個(gè)會(huì)議錄制功能,用戶(hù)在一些不需要發(fā)言的網(wǎng)絡(luò)研討會(huì)、開(kāi)放性的會(huì)議可以使用 Notta Bot 定時(shí)參會(huì),空閑時(shí)候回顧音頻和文本。公司例會(huì)和客戶(hù)會(huì)議可以通過(guò) Notta Bot 記錄文檔,推送到 Notion 留存。目前 Notta Bot 已經(jīng)支持 Zoom/Google Meet/Microsoft Teams,還可以同步自己的日歷,實(shí)現(xiàn)自動(dòng)參會(huì)。
2. 多語(yǔ)種轉(zhuǎn)文字
Notta針對(duì)的是海外市場(chǎng),因此需要滿(mǎn)足大量不同地域的語(yǔ)言要求,因此語(yǔ)言支持方面也是 Notta 的優(yōu)勢(shì),Notta 集成 Google、AMI、微軟、思必馳等多家引擎服務(wù)商,支持中文(簡(jiǎn)體、繁體、粵語(yǔ))、英語(yǔ)、日語(yǔ)等多達(dá)幾十種語(yǔ)言,還包含多種口音,如印度英語(yǔ)、澳大利亞英語(yǔ)等,系統(tǒng)會(huì)根據(jù)不同的語(yǔ)言智能匹配不同的引擎,綜合語(yǔ)言和口音達(dá)到100種。
3. 編輯校對(duì)
首先,和訊飛聽(tīng)見(jiàn)的轉(zhuǎn)錄結(jié)果偏向閱讀的整段展示不同,Notta將轉(zhuǎn)錄文本切得很細(xì),每段/每句后都直接附上了原聲語(yǔ)音切片,如果用戶(hù)需要對(duì)文本以編輯校對(duì)。
比如對(duì)相關(guān)術(shù)語(yǔ)近義詞可能造成歧義的,切得細(xì)的相對(duì)容易進(jìn)行二次校驗(yàn),這就讓用戶(hù)在轉(zhuǎn)寫(xiě)完成后不會(huì)立刻導(dǎo)出,而是在Notta上完成編輯工作。
4. 筆記輸出
對(duì)于轉(zhuǎn)錄結(jié)果,用戶(hù)可以添加圖片,將文本筆記變成富文本筆記。進(jìn)一步地,通過(guò)給筆記打上標(biāo)簽添加便簽內(nèi)容,幫助用戶(hù)從原文中提取關(guān)鍵信息形成決策和計(jì)劃(默認(rèn)標(biāo)簽有Key Poiont、To-do、Project),非常契合實(shí)際的工作學(xué)習(xí)場(chǎng)景。
5. 分類(lèi)管理
不同于“用完即走”的語(yǔ)音轉(zhuǎn)錄工具,Notta爭(zhēng)取讓用戶(hù)留在產(chǎn)品內(nèi),用戶(hù)如果有長(zhǎng)期的轉(zhuǎn)錄文件需求,文件的分類(lèi)管理是大問(wèn)題,畢竟如果每次都要導(dǎo)出到本地,遇到多設(shè)備辦公或者協(xié)作時(shí)會(huì)很不方便。因此Notta承擔(dān)了筆記內(nèi)容的存儲(chǔ)空間,支持將轉(zhuǎn)寫(xiě)文檔建組歸檔,從語(yǔ)音轉(zhuǎn)錄工具變成了文檔辦公平臺(tái)。
6. 導(dǎo)出
完成轉(zhuǎn)寫(xiě)和編輯之后,Notta 在導(dǎo)出文本時(shí)還具備良好的兼容性。
Notta 除了支持實(shí)時(shí)錄音轉(zhuǎn)寫(xiě),還支持音頻、視頻的主流格式導(dǎo)入轉(zhuǎn)寫(xiě),我們?cè)诰W(wǎng)上下載的音頻視頻文件無(wú)需轉(zhuǎn)換格式可直接導(dǎo)入 Notta 中獲取轉(zhuǎn)寫(xiě)文字,并可導(dǎo)出多種格式的文本檔案,如 PDF、DOCX、SRT 等格式。
Notta的創(chuàng)始人也是原來(lái)摩拜單車(chē)的聯(lián)合創(chuàng)始人,幾個(gè)合伙人也是有不錯(cuò)的創(chuàng)業(yè)經(jīng)驗(yàn),所以在語(yǔ)音轉(zhuǎn)寫(xiě)紅海市場(chǎng)里的打法也比較值得品味。
Notta一開(kāi)始就確定了“PLG+訂閱付費(fèi)”的盈利模式,因?yàn)榻?jīng)過(guò)驗(yàn)證,這種模式是最適合海外SaaS產(chǎn)品的自增長(zhǎng),Notta早期也是有在中國(guó)市場(chǎng)上架投放的,但是發(fā)現(xiàn)中國(guó)市場(chǎng)的訂閱付費(fèi)情況非常糟糕,簡(jiǎn)單說(shuō)就是白嫖居多,因此后面因?yàn)楦鞣N原因就暫時(shí)不投放了。(Notta作為一家創(chuàng)業(yè)公司,避免重復(fù)造輪子,集成了 Google、AMI、微軟、思必馳等多家引擎服務(wù)商,被白嫖真架不住)
Notta在海外的投放自然也是瞄準(zhǔn)發(fā)達(dá)國(guó)家,因?yàn)榘l(fā)達(dá)國(guó)家的付費(fèi)意愿的確高,養(yǎng)活了很多SaaS公司,在眾多地區(qū)的投放效果對(duì)比時(shí),發(fā)現(xiàn)日本的投入產(chǎn)出結(jié)果是最好的。
Notta經(jīng)歷了從單一場(chǎng)景切入的工具,到口碑傳播和商業(yè)化,再到服務(wù)企業(yè)客戶(hù)的完整過(guò)程,主要有三個(gè)階段:
(1)第一階段
Notta最早作為移動(dòng)端工具APP,先是上了APP Store,然后上了Google Play,2020年7月份的時(shí)候,整個(gè)移動(dòng)端下載量突然一天增加了兩萬(wàn),沖上了日本地區(qū)效率榜Top3。
當(dāng)時(shí)團(tuán)隊(duì)以為是被黑客攻擊了導(dǎo)致下載量特別多,直到過(guò)了大概兩三天才發(fā)現(xiàn)Notta是被日本的電視臺(tái)一個(gè)早間新聞節(jié)目報(bào)道了,一個(gè)日本年輕動(dòng)畫(huà)配音演員分享了日本人生活中要用到的幾個(gè)效率APP,于是就在日本小火了一把,之后Notta在蘋(píng)果市場(chǎng)表現(xiàn)得非常好,用戶(hù)搜一些關(guān)鍵詞就可以看到這款A(yù)PP,Notta發(fā)現(xiàn)日本市場(chǎng)在用戶(hù)增速、營(yíng)收、付費(fèi)意愿都是相當(dāng)不錯(cuò)的,團(tuán)隊(duì)開(kāi)始發(fā)力日本市場(chǎng)。
直到2022年5月份的時(shí)候上了企業(yè)版,隨著功能逐漸豐滿(mǎn)開(kāi)始有企業(yè)級(jí)別的客戶(hù)去付費(fèi)。在只有App的時(shí)候,Notta發(fā)現(xiàn)傳統(tǒng)媒體的PR效果非常好。這個(gè)階段Notta也嘗試過(guò)國(guó)內(nèi)安卓市場(chǎng),后來(lái)發(fā)現(xiàn)付費(fèi)還是不行。
在上線(xiàn)Web版SaaS產(chǎn)品后,用戶(hù)開(kāi)始在社媒上自發(fā)討論Notta,評(píng)價(jià)Notta為他們生活帶來(lái)了便利,甚至有用戶(hù)稱(chēng)“Notta應(yīng)該獲得諾貝爾和平獎(jiǎng)”。產(chǎn)品的口碑開(kāi)始建立了,也符合公司的預(yù)期——一定要做品牌,要讓用戶(hù)總是搜索到好的評(píng)價(jià)和內(nèi)容,通過(guò)“洗腦式”的好評(píng)來(lái)影響用戶(hù)最終的決策。
(2)第二階段
本地化運(yùn)營(yíng),這個(gè)時(shí)候,團(tuán)隊(duì)發(fā)現(xiàn)60%的流量都來(lái)自搜索引擎,因此營(yíng)銷(xiāo)精力主要放在SEO(搜索引擎優(yōu)化)。
本地的內(nèi)容同學(xué)和兼職寫(xiě)手基本上一周能產(chǎn)出與產(chǎn)品、場(chǎng)景或效率相關(guān)的二十多篇文章,通過(guò)這些文章在搜索引擎不斷優(yōu)化關(guān)鍵詞,本質(zhì)是內(nèi)容營(yíng)銷(xiāo)。當(dāng)SEO月環(huán)比或周環(huán)比增長(zhǎng)放慢的時(shí)候才考慮配合買(mǎi)量。
(3)第三階段
PLG典范,自下而上效應(yīng)最終幫助產(chǎn)品進(jìn)入企業(yè)級(jí)客戶(hù),當(dāng)時(shí)基于用戶(hù)需求做了一個(gè)跨平臺(tái)自動(dòng)參會(huì)的功能,也為產(chǎn)品帶來(lái)了一小波爆發(fā)。比較典型的企業(yè)客戶(hù)是日本的八千代工程(工業(yè)、汽車(chē)零部件供應(yīng)商)。
而這筆大單的起源是一名員工最早購(gòu)買(mǎi)了一個(gè)賬戶(hù),公司先是有一個(gè)市場(chǎng)顧問(wèn)在用的過(guò)程中覺(jué)得很好用,然后團(tuán)隊(duì)幾個(gè)人開(kāi)始在用,之后他們覺(jué)得自己每次買(mǎi)會(huì)員還要找公司報(bào)銷(xiāo),覺(jué)得很麻煩,于是就推到本公司的數(shù)字化業(yè)務(wù)推進(jìn)部門(mén)的 leader,經(jīng)過(guò)幾次遠(yuǎn)程會(huì)議后該公司幫1000多名員工購(gòu)買(mǎi)了Notta 500多個(gè)賬戶(hù)一年的服務(wù),這是Notta第一個(gè)大客戶(hù),整個(gè)銷(xiāo)售過(guò)程比較順利,是純?cè)诰€(xiàn)的方式。
從馬后炮的角度看,日本市場(chǎng)表現(xiàn)顯著的原因有三:
(1)日本市場(chǎng)的老齡化趨勢(shì)下,勞動(dòng)力是極度稀缺資源
在日本有這樣一個(gè)段子,150個(gè)崗位,卻只有100個(gè)人來(lái)應(yīng)聘,因此日本企業(yè)對(duì)于人效的關(guān)注持續(xù)上升,日本的經(jīng)濟(jì)勞動(dòng)?。ㄏ喈?dāng)于國(guó)家的人力資源部)提了一個(gè)建議,讓日本企業(yè)能夠以數(shù)字化的方式去擁抱未來(lái)。希望利用AI帶來(lái)的自動(dòng)化工作方式來(lái)去提高人效,剛好 Notta這款產(chǎn)品符合這個(gè)場(chǎng)景,因而整體導(dǎo)入是比較順利的。
(2)日本嚴(yán)肅的職場(chǎng)文化
日本職員只要開(kāi)會(huì),一般都會(huì)寫(xiě)一個(gè)特別詳細(xì)的會(huì)議紀(jì)要,或者有一個(gè)專(zhuān)門(mén)的職位去做這樣的事情。Notta這款產(chǎn)品剛好符合日本這種當(dāng)?shù)匚幕?,那么?dǎo)入的過(guò)程也會(huì)比較順利。
(3)日語(yǔ)相比于中英文,歸根結(jié)底屬于小市場(chǎng),競(jìng)爭(zhēng)不激烈
美國(guó)早期的那些獨(dú)角獸公司或者一些SaaS公司,它早期并不會(huì)關(guān)注日本市場(chǎng),這也是給了Notta一個(gè)好的入場(chǎng)機(jī)會(huì)。像Otter這樣的AI公司在北美的增長(zhǎng)是很快的,目前有幾千萬(wàn)美金的收入量級(jí),但是Otter始終沒(méi)有做日語(yǔ)引擎,這給了Notta團(tuán)隊(duì)一個(gè)窗口期,讓Notta能夠在日本迅速把市場(chǎng)覆蓋度鋪廣,目前為止在移動(dòng)端的效率榜Notta已經(jīng)進(jìn)到前10名,在Notta網(wǎng)頁(yè)端每個(gè)月已經(jīng)有將近100萬(wàn)UV。
由于是發(fā)達(dá)市場(chǎng),而且提供了如此豐富的功能,Notta的客單價(jià)相比于競(jìng)爭(zhēng)對(duì)手絕對(duì)是第一梯隊(duì)的,
Notta實(shí)行訂閱制,對(duì)于免費(fèi)用戶(hù),Notta每個(gè)月會(huì)贈(zèng)送120min的轉(zhuǎn)寫(xiě)時(shí)長(zhǎng),付費(fèi)用戶(hù)可以不僅可以有無(wú)限時(shí)長(zhǎng),還可以使用各種附加功能,比如更多的導(dǎo)入格式、文字校對(duì)、隱藏時(shí)間戳等。
年費(fèi)平均下來(lái)要比月費(fèi)要便宜(下圖是年費(fèi)換算),單月付費(fèi)大概是100元人民幣的價(jià)格,相當(dāng)于在訊飛聽(tīng)見(jiàn)上轉(zhuǎn)寫(xiě)6個(gè)小時(shí)的文件,這樣看來(lái)整體性?xún)r(jià)比是高的。
目前Notta在日本這個(gè)軟件領(lǐng)域似乎很傳統(tǒng)的市場(chǎng),又是在語(yǔ)音轉(zhuǎn)錄這個(gè)并不特殊的賽道,不到3年就做到月入30萬(wàn)美金,算上ARR已達(dá)到360萬(wàn)美金了。
由于出海產(chǎn)品都會(huì)面臨很強(qiáng)的本地運(yùn)營(yíng)問(wèn)題,因此針對(duì)PLG模式最發(fā)達(dá)的美國(guó)市場(chǎng),Notta團(tuán)隊(duì)選擇重新開(kāi)發(fā)一款會(huì)議效率產(chǎn)品Airgram,拿下Product Hunt頭條,順勢(shì)拿下了1000萬(wàn)美金的A輪融資。
從Notta團(tuán)隊(duì)的思路可以看到,語(yǔ)音轉(zhuǎn)寫(xiě)產(chǎn)品想在超級(jí)紅海市場(chǎng)脫穎而出,遵循幾個(gè)邏輯:
- 小工具盡快找到核心價(jià)值用戶(hù),或者國(guó)外常說(shuō)的ICP(Ideal Customer Profile,理想客戶(hù)畫(huà)像),讓客戶(hù)推著產(chǎn)品向前,Notta一開(kāi)始就是非常重視盈利閉環(huán)的,而不是提供同質(zhì)化的免費(fèi)低價(jià)服務(wù),因?yàn)槟侵粫?huì)吸引低價(jià)值白嫖黨;
- 不重復(fù)造輪子,關(guān)注自己的核心業(yè)務(wù),善用三方工具和能力,快速將產(chǎn)品做到及格,盡早投入市場(chǎng)進(jìn)行驗(yàn)證;
- 非常重視內(nèi)容營(yíng)銷(xiāo),在海外要真正并持久獲得高質(zhì)量的用戶(hù),需要給產(chǎn)品持續(xù)講一個(gè)打動(dòng)人心的故事,這點(diǎn)普通公司離海外一流SaaS公司的差距很明顯。
十一、語(yǔ)音轉(zhuǎn)寫(xiě)發(fā)展趨勢(shì)
既然談到發(fā)展趨勢(shì),就不局限在C端應(yīng)用市場(chǎng)了,而是放眼全球的各個(gè)領(lǐng)域
1. 從大語(yǔ)種逐漸蔓延到小語(yǔ)種
中美互聯(lián)網(wǎng)發(fā)展是最快的,其次就是東南亞、印度,這些地區(qū)經(jīng)濟(jì)發(fā)展緊隨中國(guó),互聯(lián)網(wǎng)滲透率也越來(lái)越高,基礎(chǔ)設(shè)施越來(lái)越完善,必然會(huì)產(chǎn)生許多新需求,對(duì)這些市場(chǎng)是新需求,其實(shí)對(duì)于中美已經(jīng)是被驗(yàn)證很多次的市場(chǎng)了,因此貫徹“Copy to them”的策略,就語(yǔ)音轉(zhuǎn)寫(xiě)而言,東南亞、印度這些地區(qū)很明顯的社會(huì)特征就是民族多、語(yǔ)言繁多,識(shí)字率不高。雖然印度是一個(gè)完整的主權(quán)國(guó)家,但其實(shí)際的社會(huì)統(tǒng)一性是遠(yuǎn)不如中國(guó)的,
印度語(yǔ)言的特點(diǎn),一是語(yǔ)言種類(lèi)多,二是各個(gè)語(yǔ)種使用人口非常不均衡。其中印地語(yǔ)母語(yǔ)者最多,而英語(yǔ)最通行。
印度有個(gè)稱(chēng)號(hào)叫“語(yǔ)言博物館”,足見(jiàn)其語(yǔ)言狀況之多樣。大體上,北印度人主要講印歐語(yǔ)系下的印度-雅利安語(yǔ)支的各個(gè)語(yǔ)種,如印地語(yǔ)、烏爾都語(yǔ);南印度人則多操著達(dá)羅毗荼語(yǔ)系下的各語(yǔ)言,如泰米爾語(yǔ)、泰盧固語(yǔ)等。印度語(yǔ)言從大的層面的分類(lèi),有很明顯的南北差異和東西差異。
精確點(diǎn)講,按照2001年人口普查結(jié)果,在印度作為母語(yǔ)使用的語(yǔ)言數(shù)量有1635種,單是使用人口在百萬(wàn)以上的語(yǔ)言就有29種。在眾多本土語(yǔ)言中,以印地語(yǔ)為母語(yǔ)的人約占印度總?cè)丝诘?b>40%,這些人集中分布在北印度,而以其他語(yǔ)言為母語(yǔ)的人口均不足10%。不過(guò)在南印度,英語(yǔ)和南印本土語(yǔ)言更加通行。印地語(yǔ)的基本盤(pán),很明顯就是恒河流域的中上游部分。
因此,在互聯(lián)網(wǎng)高速發(fā)展的印度,有了印度硅谷之稱(chēng)的加爾各答,催生出各種智能語(yǔ)音相關(guān)的初創(chuàng)公司,以及其他外來(lái)企業(yè)針對(duì)印度市場(chǎng)的語(yǔ)音本土化產(chǎn)品。
而東南亞是由11個(gè)國(guó)家組成的,人口6億左右,除了新加坡這樣的發(fā)達(dá)國(guó)家,大部分都是發(fā)展中國(guó)家,它們不僅民族語(yǔ)言繁多,而且還有國(guó)界分割,而市場(chǎng)經(jīng)濟(jì)又將他們深度捆綁在一起,因此也是新興的語(yǔ)言市場(chǎng)。
(1)Fano labs
中國(guó)香港的初創(chuàng)公司,Fano Labs,成立于2015年,專(zhuān)注于語(yǔ)音識(shí)別(ASR)及自然語(yǔ)言處理(NLP)等人工智能前沿技術(shù)的研發(fā)與應(yīng)用。目前,公司的語(yǔ)音識(shí)別解決方案支持普通話(huà)、英語(yǔ)、泰語(yǔ)、印尼語(yǔ)等多個(gè)語(yǔ)種,以及四川話(huà)、廣東話(huà)等各類(lèi)方言。其主要業(yè)務(wù)是為金融合規(guī)和客戶(hù)服務(wù)等場(chǎng)景提供語(yǔ)音識(shí)別技術(shù)服務(wù)。
Fano Labs 的核心競(jìng)爭(zhēng)力是多語(yǔ)種環(huán)境識(shí)別,即在幾種語(yǔ)言混雜情況下的語(yǔ)音識(shí)別。比如,在香港企業(yè)中,中粵英混雜使用的情況較為常見(jiàn),印度企業(yè)面臨著印度語(yǔ)和英文混合的問(wèn)題,即便在新加坡,雖然大部分企業(yè)講英文,但日常溝通也會(huì)摻雜一些中文和馬來(lái)語(yǔ)。隨著多語(yǔ)種混合的趨勢(shì)愈發(fā)明顯,傳統(tǒng)語(yǔ)言分析技術(shù)已疲于應(yīng)付。Fano Labs 的語(yǔ)言分析技術(shù)能夠自動(dòng)檢測(cè)錄音中的不同語(yǔ)種,即使同一個(gè)說(shuō)話(huà)者在多種語(yǔ)言切換也能被準(zhǔn)確識(shí)別。(值得一提的是,香港有一個(gè)獨(dú)特的優(yōu)勢(shì),就是這個(gè)國(guó)際化的大都市匯聚了世界各地的人,我們?cè)谙愀垡材茌p松地找到其他國(guó)家的 native speaker,通過(guò)他們的反饋,我們得以把技術(shù)打磨得更好,借助香港這個(gè)跳板,出海到其他國(guó)家。)
(2)Vokal
在過(guò)去的十年中,印度的互聯(lián)網(wǎng)市場(chǎng)以及相關(guān)業(yè)務(wù)都專(zhuān)注于服務(wù)習(xí)慣于使用英語(yǔ)的用戶(hù)身上。但下一代互聯(lián)網(wǎng)用戶(hù)渴望的是不用打字的非英語(yǔ)內(nèi)容、交流以及購(gòu)物。
事實(shí)上,大多數(shù)印度互聯(lián)網(wǎng)用戶(hù)都習(xí)慣于使用印度語(yǔ)瀏覽網(wǎng)頁(yè),而這一數(shù)字預(yù)計(jì)在兩年內(nèi)達(dá)到 5 億。谷歌的統(tǒng)計(jì)數(shù)據(jù)也能為印度下一代互聯(lián)網(wǎng)用戶(hù)行為的變化提供一些線(xiàn)索:
印度的語(yǔ)音搜索量同比增長(zhǎng)了 270%,同時(shí),95% 的視頻內(nèi)容消費(fèi)都是本地語(yǔ)言。預(yù)計(jì)未來(lái)幾年內(nèi),印度的互聯(lián)網(wǎng)用戶(hù)數(shù)量將超過(guò) 6.5 億,新用戶(hù)將全部來(lái)自于印度二、三線(xiàn)城市以及農(nóng)村地區(qū)。
Vokal 的應(yīng)用下載量超過(guò) 50 萬(wàn),人們可以用印地語(yǔ)在上面提出并回答問(wèn)題,而現(xiàn)在 Vokal 已經(jīng)新推出了 10 多種語(yǔ)言選項(xiàng)。Radhakrishna 說(shuō),“你必須進(jìn)行多種嘗試,不斷完善自己的商業(yè)模式。市場(chǎng)在不斷地發(fā)展,以英語(yǔ)為中心的受眾群體并不能代表整個(gè)市場(chǎng)的用戶(hù)。”
盡管互聯(lián)網(wǎng)在發(fā)展,新互聯(lián)網(wǎng)用戶(hù)的行為也與之前不同。他們通過(guò)互聯(lián)網(wǎng)下載并分享的內(nèi)容更多了,但卻不能用自己的語(yǔ)言進(jìn)行公開(kāi)提問(wèn)并得到答案。同時(shí),爭(zhēng)取這些新互聯(lián)網(wǎng)用戶(hù)的也并不只有本土企業(yè)。中國(guó)的創(chuàng)業(yè)公司,尤其是那些提供本地語(yǔ)言選項(xiàng)并專(zhuān)注于視頻內(nèi)容的企業(yè),正被廣大用戶(hù)選擇。
筆者認(rèn)為,歸根結(jié)底還是印度整個(gè)國(guó)家的識(shí)字率不高,一些低線(xiàn)城市的人口不擅長(zhǎng)打字更不擅長(zhǎng)英文,因此用自己會(huì)的語(yǔ)言進(jìn)行語(yǔ)音搜索代替打字搜索是非常符合當(dāng)?shù)貙?shí)際情況的,即語(yǔ)音產(chǎn)品的本土化,給了像Vokal這樣的公司很大的增長(zhǎng)空間。
當(dāng)然這也會(huì)帶來(lái)一個(gè)疑惑,為什么Google這樣的巨頭這么早進(jìn)入印度市場(chǎng),卻沒(méi)有深度進(jìn)駐這個(gè)領(lǐng)域,還是那句話(huà),不是不能做,是巨頭看不上。訓(xùn)練一個(gè)小語(yǔ)種模型無(wú)論從資金還是時(shí)間上都不便宜,更何況早期的印度智能手機(jī)滲透率還不高,很多基礎(chǔ)設(shè)施跟不上,因此做這些小語(yǔ)種的確是投入大產(chǎn)出小。
2. 從單純的語(yǔ)音轉(zhuǎn)寫(xiě)延伸到整個(gè)鏈路
無(wú)論是出海產(chǎn)品Notta、Airgram,還是美國(guó)本土的Otter以及一系列帶語(yǔ)音轉(zhuǎn)寫(xiě)功能的產(chǎn)品,都是圍繞著企業(yè)在線(xiàn)會(huì)議作為立足點(diǎn)拓展,前有會(huì)議預(yù)約和創(chuàng)建,中間有會(huì)議機(jī)器人,后有會(huì)議紀(jì)要的總結(jié)和同步,旨在提高企業(yè)的人效,減少會(huì)議導(dǎo)致的人力資源不必要的浪費(fèi),美國(guó)企業(yè)每年由于開(kāi)會(huì)帶來(lái)的人力資源浪費(fèi)達(dá)到企業(yè)開(kāi)銷(xiāo)的1%。
這個(gè)思路不難理解,企業(yè)開(kāi)會(huì)的目的是同步信息,其結(jié)果是形成具體決策,決策最終會(huì)指導(dǎo)團(tuán)隊(duì)行動(dòng)。
會(huì)議過(guò)程轉(zhuǎn)文字的好處在于,會(huì)議音視頻是線(xiàn)性的數(shù)據(jù),用戶(hù)只能根據(jù)時(shí)間線(xiàn)快進(jìn)后退來(lái)獲得信息,而轉(zhuǎn)文字后就變成可縱覽的信息,用戶(hù)可以在文字中迅速捕捉關(guān)鍵信息,不需要操作時(shí)間線(xiàn),更不需要把原話(huà)重聽(tīng)一遍。
轉(zhuǎn)文字后,將關(guān)鍵信息提取出來(lái),就是團(tuán)隊(duì)的決策依據(jù)和知識(shí)庫(kù),這些不應(yīng)該是保存在決策者的大腦或者某個(gè)本地設(shè)備,而是要共享給整個(gè)團(tuán)隊(duì),讓團(tuán)隊(duì)參與討論和決策執(zhí)行。
同樣的,對(duì)于學(xué)生來(lái)說(shuō),語(yǔ)音轉(zhuǎn)文字可以很好地在課后對(duì)老師的講課內(nèi)容有很好地概括和提取,并且將其進(jìn)一步知識(shí)化,補(bǔ)充更多內(nèi)容使其豐富化,單純的轉(zhuǎn)錄文稿是低價(jià)值的,只有便捷的編輯和提取才可以讓學(xué)生把產(chǎn)品當(dāng)成一個(gè)學(xué)習(xí)助手而非用完即走的轉(zhuǎn)錄工具。
3. 從語(yǔ)音轉(zhuǎn)寫(xiě)結(jié)果中提取線(xiàn)索
這個(gè)不僅僅是對(duì)語(yǔ)音轉(zhuǎn)寫(xiě)能力有要求,更多是搭配語(yǔ)義分析一齊提取有效信息,多用于銷(xiāo)售管理、客戶(hù)管理、商務(wù)會(huì)話(huà)
比如當(dāng)銷(xiāo)售和客戶(hù)溝通后,溝通數(shù)據(jù)會(huì)自動(dòng)同步并且系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行分析,讓更多銷(xiāo)售能夠從聊天數(shù)據(jù)中獲益,從而更好地指導(dǎo)銷(xiāo)售行為。
比如公司商務(wù)人員去外面會(huì)談后,其會(huì)談內(nèi)容會(huì)被完整同步給團(tuán)隊(duì),讓整個(gè)團(tuán)隊(duì)包括負(fù)責(zé)人能夠接觸到一手的商務(wù)數(shù)據(jù),結(jié)合商務(wù)人員提供的信息得出更加科學(xué)的決策。
比如企業(yè)開(kāi)會(huì)的最終的落地結(jié)果是會(huì)議紀(jì)要,轉(zhuǎn)文字只是第一步,更重要的是在文字中提取出會(huì)議重點(diǎn)內(nèi)容,否則仍然需要參會(huì)者的二次加工。
至于醫(yī)療場(chǎng)景,由于醫(yī)療是個(gè)嚴(yán)肅的話(huà)題,一旦技術(shù)轉(zhuǎn)錄出錯(cuò)會(huì)釀出大禍,因此這塊還有很長(zhǎng)一段路要走。
十二、行業(yè)總結(jié)
語(yǔ)音轉(zhuǎn)寫(xiě)行業(yè)的衡量標(biāo)準(zhǔn)前文已經(jīng)闡明了,不僅又快又準(zhǔn),也需要方便存儲(chǔ)調(diào)取使用,并且最終目的是對(duì)決策產(chǎn)生影響。
因此,行業(yè)上游玩家作為基礎(chǔ)設(shè)施的搭建者,努力提升算法性能,采集更多數(shù)據(jù),幫助語(yǔ)音轉(zhuǎn)文字以及其他技術(shù)不斷提升,突破臨界值。
行業(yè)中游玩家努力嵌入更多企業(yè)、組織、機(jī)構(gòu),幫助它們提升數(shù)字化程度,將更多的信息知識(shí)化沉淀化。
行業(yè)下游玩家,離消費(fèi)端最近,準(zhǔn)入門(mén)檻低,參與者非常多,不乏努力避免同質(zhì)化的競(jìng)爭(zhēng)者,只有找到用戶(hù)實(shí)際場(chǎng)景中的核心痛點(diǎn),提高效率,創(chuàng)造更多附加價(jià)值才可以獲得更高的利潤(rùn)。
需要語(yǔ)音轉(zhuǎn)寫(xiě)的場(chǎng)景有很多而且流程區(qū)別很大,使很多新的入場(chǎng)者有發(fā)揮的空間,比如:
- 專(zhuān)為小語(yǔ)種市場(chǎng)提供專(zhuān)業(yè)的語(yǔ)音轉(zhuǎn)寫(xiě);
- 針對(duì)某一個(gè)市場(chǎng)進(jìn)行本土化的產(chǎn)品設(shè)計(jì)和運(yùn)營(yíng),仍可以依靠高客單價(jià)建立商業(yè)閉環(huán);
- 通過(guò)語(yǔ)音轉(zhuǎn)寫(xiě)拓展到整個(gè)鏈路的服務(wù),和巨頭的基礎(chǔ)服務(wù)打通,打破數(shù)據(jù)孤島;
- 從語(yǔ)音轉(zhuǎn)文字的結(jié)果中提取更多關(guān)鍵信息和線(xiàn)索,幫助用戶(hù)做決策。
語(yǔ)音轉(zhuǎn)文字作為一個(gè)成熟行業(yè),光靠技術(shù)競(jìng)爭(zhēng)很難拉開(kāi)差距,更關(guān)鍵的是比拼產(chǎn)品體驗(yàn)和運(yùn)營(yíng)策略。
本文由 @WIPO 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
總結(jié)的非常好!