深挖一下,微信是怎么學會“說人話”的?

1 評論 1387 瀏覽 6 收藏 8 分鐘

最近,微信推出的真人朗讀功能,讓我們不禁好奇,這項功能是如何讓機器學會“說人話”的?本文將深入探討微信真人朗讀功能背后的技術(shù)奧秘,揭示它是如何通過AI的力量,將冰冷的文字轉(zhuǎn)化為溫暖的聲音。

千呼萬喚,真人朗讀功能終于灰度到了我!

讓我驚訝的是,有朋友居然以為是我自己錄了音。佩服微信的技術(shù)能力的同時,也讓我好奇,這項功能背后究竟藏著什么奧秘?

01 從機器人到真人聲:技術(shù)進化之路

微信公眾號的朗讀功能并不新鮮,早些年就上線了語音朗讀,但效果實在一般。聽起來像是機器人在念稿子,毫無感情。

于是,這個功能并沒有吸引太多用戶,點擊量寥寥無幾。

反觀另一種場景,比如喜馬拉雅這樣的音頻平臺,為什么它的朗讀內(nèi)容卻能打動人?

答案很簡單:它們使用真人朗讀。

為了讓用戶有更好的聆聽體驗,這些平臺鼓勵主播或講書人用專業(yè)設(shè)備錄音,雖然成本較高,但效果確實好。

不過,這種方法并不適合公眾號。公眾號的核心是文字內(nèi)容,音頻只是輔助,要求每位作者錄音顯然是不現(xiàn)實的。

于是,技術(shù)解決方案的接力棒交到了AI手中。

從2022年底大模型技術(shù)的爆發(fā),到現(xiàn)在AI技術(shù)在文生文、文生音頻等領(lǐng)域的成熟,公眾號真人朗讀功能終于有了實現(xiàn)的可能。效果不僅越來越逼真,還能根據(jù)文字生成匹配的語氣和感情。正是這些技術(shù)突破,才讓微信這個功能實現(xiàn)了質(zhì)的飛躍。

02 探索“說人話”背后的技術(shù)小秘密

我們先來看看說人話的過程,一共操作只需要三步:先選擇錄制例句 ?? 音色復(fù)刻 ?? 音色試聽并保存。

用技術(shù)的視角一句話總結(jié):通過預(yù)訓練語音模型,結(jié)合作者音色訓練,生成專屬語音模型。

具體實現(xiàn)可以分為以下幾步:

  1. 文本準備與預(yù)訓練模型:開始時,需要用海量的語音數(shù)據(jù)和對應(yīng)的文本進行預(yù)訓練。這些語音數(shù)據(jù)覆蓋了不同的語氣、語速和音色,讓模型能夠掌握“如何說話”的基礎(chǔ)能力。
  2. 作者音色采集:作者需要朗讀幾段預(yù)設(shè)文案。這些文案是設(shè)計好的訓練數(shù)據(jù),幫助AI捕捉作者的獨特音色和語調(diào)特征。注意,這個過程中作者最好帶入情感朗讀,生成的聲音才會更像自己。
  3. 音頻生成:基于前兩步的數(shù)據(jù),系統(tǒng)會用“音色遷移”技術(shù),將作者的聲音特征融入到預(yù)訓練模型中。最終生成的音頻不僅保留了原有模型的流暢度和自然感,還帶上了作者的個人特色。
  4. 試聽與調(diào)整:用戶可以試聽生成的音頻。如果覺得某些地方不夠滿意,可以重新錄入部分文案,優(yōu)化生成效果。

就是這樣,復(fù)雜的技術(shù)被簡化成用戶無感的操作,只需幾分鐘,作者的聲音就可以被完美復(fù)刻。

03 如何借鑒微信的產(chǎn)品設(shè)計?

我在這篇文章之前也看到了很多作者的觀點,我總結(jié)就是兩點:第一點是極簡的產(chǎn)品設(shè)計,第二點是新技術(shù)解決老問題。

第一,極簡交互的威力

微信的設(shè)計哲學向來強調(diào)極簡。朗讀功能的核心交互流程非常清晰:選擇文案、錄入音色、生成試聽。

對于用戶來說,復(fù)雜的技術(shù)細節(jié)被隱藏在背后,只留下易懂、易用的體驗。這種“去復(fù)雜化”的設(shè)計理念,值得每一位產(chǎn)品經(jīng)理學習。

遷移思考: 比如在政務(wù)智能客服中,利用大模型技術(shù)解決市民咨詢的復(fù)雜性問題:當市民提問政策時,AI可以通過自然語言處理,將模糊問題具體化,生成語音解答,甚至用地方方言增強親和力,避免傳統(tǒng)客服中的機械感。同時,在熱線高峰時段,AI還能通過情緒識別,優(yōu)先處理緊急或情緒激動的市民訴求,讓市民感受到更加高效和人性化的服務(wù)體驗。

第二,新技術(shù)解決老問題

這個功能的推出并不是炫技,而是為了解決一個具體的用戶痛點——提升文章的聆聽體驗。很多產(chǎn)品經(jīng)理在應(yīng)用技術(shù)時容易陷入“堆功能”的誤區(qū),而微信卻用技術(shù)精細打磨產(chǎn)品,服務(wù)明確的需求場景。

遷移思考:在政務(wù)服務(wù)領(lǐng)域,類似的新技術(shù)同樣可以解決老問題。例如,市民咨詢政策時,AI技術(shù)能從市民的復(fù)雜表達中提取關(guān)鍵信息,自動匹配精準的政策條款。

最后的話

雖然很多人覺得公眾號已經(jīng)日薄西山,但真人朗讀功能的加入可能改變這一趨勢。它不僅提升了用戶體驗,還為公眾號找到了一條新增長曲線。

未來,我們或許會看到更多結(jié)合AI技術(shù)的功能,比如視頻生成、個性化推薦,甚至文章內(nèi)容的AI自動延展。公眾號,正在從“人寫”走向“人講”,讓內(nèi)容變得更加生動有趣。

從技術(shù)角度來看,它從來不只是冷冰冰的代碼,它是溫暖的橋梁,連接著創(chuàng)作者與讀者。正如張小龍曾說過,“好的產(chǎn)品應(yīng)該像水一樣融入生活”,未來,我相信我們能在微信上不斷的體驗到更多這樣的功能,不斷刷新“啊哈”體驗的上限。

希望帶給你一些啟發(fā),加油。

作者:柳星聊產(chǎn)品,公眾號:柳星聊產(chǎn)品

本文由 @柳星聊產(chǎn)品 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 這樣的話,有個問題需要考慮,是否人工費用會高呢

    來自中國 回復(fù)