6000字長文丨微信讀書中4個結(jié)合AI能力提升體驗(yàn)的案例分析

杜昭
0 評論 3706 瀏覽 42 收藏 25 分鐘
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

前幾天微信讀書APP更新了,上線了AI問書的相關(guān)功能。本文作者從四個方面,和大家分享微信讀書與AI能力融合之后,在閱讀這個細(xì)分場景下是如何提升用戶體驗(yàn)的。

AI很火,大模型很火,但是國內(nèi)沒有任何一家AI公司賺錢,文心一言從上線到現(xiàn)在據(jù)說營收不超過50萬美元。

各家都在想著怎么使用AI能力造出新產(chǎn)品,但是在移動互聯(lián)網(wǎng)時代用戶的需求已經(jīng)被挖掘的差不多了,現(xiàn)在鮮少能有令用戶wow一聲的產(chǎn)品出現(xiàn)。

作者覺得現(xiàn)在更應(yīng)該做的是:使用AI這種新能力。以體驗(yàn)更好的方式解決用戶的舊需求。

那么在不同的細(xì)分場景中,AI能力是如何對用戶的舊需求進(jìn)行體驗(yàn)重造的呢?下文就以微信讀書為例,來進(jìn)行詳細(xì)的分析。

微信讀書APP前幾天上線了AI問書相關(guān)的功能,作者使用下來感覺很不錯。其實(shí)微信讀書之前已經(jīng)上線了不少AI相關(guān)的能力,有AI大綱、AI聽書、還有AI翻譯。

下面我們就一起從這四個具體的功能來看一下,微信讀書與AI能力融合之后,在閱讀這個細(xì)分場景下是如何提升用戶體驗(yàn)的?

一、AI問書

首先來看最新上線的【AI問書】

AI問書其實(shí)就是一個搜索功能。用戶在閱讀的過程中,如果遇到了不懂的概念,就可以將對應(yīng)的文字選中,然后點(diǎn)擊AI搜索,就可以出現(xiàn)對這個詞的搜索結(jié)果。如下圖:

在我讀ChatGPT技術(shù)原理的一本書時,遇到不懂的鏈?zhǔn)椒▌t概念就用到了AI搜索功能,可以看到在第二頁給出了菲茨詳細(xì)的解釋,而且生成速度在10秒之內(nèi)。

除此之外,還會根據(jù)用戶的問題判斷用戶可能想問的其他問題,幫用戶列出來,這一點(diǎn)也十分重要,因?yàn)楫?dāng)面對一個新領(lǐng)域的知識時,用戶非常有可能處于不知道自己需要學(xué)習(xí)什么的狀態(tài)。

如果只是這樣的話,那這也只是一個搜索功能,微信讀書的體驗(yàn)優(yōu)秀之處還可以分為兩個方面來講:

第一方面是:搜索的起點(diǎn)和終點(diǎn)都發(fā)生在同一款產(chǎn)品的同一個頁面之中。

閱讀本身就是一種非常需要沉浸的行為,如果像以前那樣,我們遇到了一個不懂的新概念,然后跑到手機(jī)瀏覽器上去搜索,那會產(chǎn)生兩個問題,第一個問題是發(fā)生了不同手機(jī)應(yīng)用之間的切換,這會導(dǎo)致用戶沉浸式閱讀的行為被中斷。

另一個問題是在瀏覽器中進(jìn)行搜索時非常有可能在不同網(wǎng)站之間進(jìn)行切換來對比這個概念的含義,才能夠比較準(zhǔn)確的判斷出在自己的閱讀場景中什么樣的解釋是符合語境的。

前者對于用戶使用時長顯然存在不利的影響,后者也提升了用戶離開微信讀書這款產(chǎn)品的時長,并且并且整個過程體驗(yàn)也很差。

而在微信讀書上線了AI搜索的能力之后,我們可以直接在某本書某段文字上進(jìn)行選擇,然后結(jié)果就會直接在當(dāng)前頁面用一個浮窗的形式顯示,并可以結(jié)合上下文來判斷用戶此時選擇的這個詞語的最佳用含義是什么。這樣就可以給出用戶一個最需要的,最合適的結(jié)果。

有些詞語可能沒有正確之分,但是一定有合不合適語境的區(qū)別。舉個例子,如果我在搜索引擎中搜索的是一個【蘋果】的詞語,那么結(jié)果到底應(yīng)該顯示出來紅富士蘋果還是蘋果手機(jī)?

這就是沒有結(jié)合上下文進(jìn)行搜索時,搜索引擎無法做出最正確判斷的例子。作者本人就遇到過多次想在拼多多買點(diǎn)水果,結(jié)果搜索結(jié)果頁列出來了一堆手機(jī)的情況。

第二方面是搜索結(jié)果的準(zhǔn)確度、易理解程度的問題。

我們都知道,在通用大模型產(chǎn)品剛剛上線不久的時候,我們與ChatGPT這類產(chǎn)品對話時,經(jīng)常會遇到胡說八道的情況。

雖然現(xiàn)在已經(jīng)好很多了,但是很多用戶包括作者自己,有時候依然會懷疑AI給出的答案是否是可信的,所以現(xiàn)在很多AI搜索產(chǎn)品在給出答案的時候都會將答案的來源列出來來增加回答的可信度(另一方面意義是為了方便用戶去原文鏈接中查找更多信息)

剛剛作者說了準(zhǔn)確度,易理解程度這兩個維度的體驗(yàn)。首先來說準(zhǔn)確度。由于微信讀書的搜索結(jié)果基本是從整個產(chǎn)品中不可計數(shù)的書籍中進(jìn)行查找的,所以對于概念的準(zhǔn)確的基本是有保障的。

雖然作者也是做自媒體,但是不得不承認(rèn),很多情況下已經(jīng)出版的書籍中對一些概念名詞的解釋是更為準(zhǔn)確、校對更加嚴(yán)格的。

再來說豐富度(或者叫結(jié)構(gòu)化),從上面的截圖中,大家也可以看到,當(dāng)我搜索鏈?zhǔn)椒▌t這個詞語的時候,整個搜索結(jié)果給我列出了它的定義、應(yīng)用、理解等三個部分的內(nèi)容。正是由于從多方面,多角度給出的信息,幫助了用戶更輕松的去理解搜索詞的含義,有的時候他甚至還會給你舉個例子來幫助用戶理解。

除了在書籍內(nèi)容頁面可以進(jìn)行AI搜索之外,在書籍商城的搜索框中同樣可以進(jìn)行AI搜索。我們假設(shè)一個場景:我想看余華最新出版的作品,但是我又忘了這本書叫什么名字,于是我在搜索框中輸入了文字【余華最新出版的書籍】。

搜索結(jié)果雖然給出了我很準(zhǔn)確的回答,,但是卻并沒有直接給我打開這本書的入口,而我們直接搜索第七天這個書名時,其實(shí)能夠發(fā)現(xiàn)這本書已經(jīng)在微信讀書app中上架了。

所以我們能夠推測,在這里進(jìn)行搜索時,其實(shí)還是根據(jù)書籍內(nèi)容進(jìn)行的,

在前面的分析中,我們提到了微信讀書結(jié)合具體的產(chǎn)品使用場景,為AI能力做了很細(xì)致的融合。

但是這里就沒有考慮使用場景,或者說沒有對用戶的意圖做出進(jìn)一步的判斷。(意圖識別將是很多AI產(chǎn)品的核心能力,這方面的分析將會在下一篇長文中進(jìn)行詳細(xì)解釋)

作者覺得在一個閱讀產(chǎn)品中輸入某某的作品,那這個時候用戶的意圖應(yīng)該是非常明確的,就是想找到這本書去閱讀。這里沒有做出更便捷的設(shè)計確實(shí)有些遺憾。

不過也可以理解,畢竟這個功能叫做AI問書,而不是AI搜索。

當(dāng)然從整體上來說,AI問書功能還是一個具體場景與AI能力結(jié)合之后,對用戶體驗(yàn)提升非常大的案例。

接下來我們繼續(xù)來聊聊AI大綱、AI聽書、AI翻譯。

二、AI聽書

聽書功能其實(shí)是一個出現(xiàn)了非常多年的功能,那么為什么微信讀書這里一定要把這個功能叫做AI聽書呢?

大家還記不記得剛開始出現(xiàn)文字轉(zhuǎn)語音功能的時候,那些文字的發(fā)音都是什么樣的?簡單來說就是一個字是一個字的發(fā)音,沒有詞語的發(fā)音,語氣詞和兒化音的發(fā)音也都特別生硬。

可以想象一下開心麻花的小品中,這位飾演機(jī)器人的妹子的發(fā)音。

后來隨著技術(shù)的進(jìn)步,文字轉(zhuǎn)成的語音慢慢變得更加流暢,更加有感情了,在這個過程中其實(shí)就是AI能力的體現(xiàn),在不同的詞語中,哪些詞哪些字應(yīng)該重讀,哪個字應(yīng)該快讀,哪個字應(yīng)該慢讀,以及、音色、音量等等,更加復(fù)雜的算法變得更加接近于人的聲音了。甚至停頓、笑聲也都有被比較準(zhǔn)確的模擬出來。

如果大家曾經(jīng)用過起點(diǎn)讀書這款產(chǎn)品的話,也能發(fā)現(xiàn)在聽書時選擇【說書先生】選項(xiàng)相對于其他選項(xiàng)明顯更加接近于人朗讀文字的感覺。

語音轉(zhuǎn)文字能力是AI能力非常重要的一部分,在多模態(tài)交互中,不同模態(tài)信息之間的轉(zhuǎn)換是工程師們的重要研究課題。

如果大家感興趣,可以隨便找一款比較山寨的閱讀產(chǎn)品,試一試?yán)锩娴穆爼δ艿母杏X和微信讀書這個AI聽書的感覺有多大的差距。

AI能力為產(chǎn)品帶來的可能不是一個全新的用戶沒有見過的能力,而更多的會發(fā)生在對已有功能的體驗(yàn)升級上??赡苁歉孢m,可能是更高效。所以作者覺得AI與用戶體驗(yàn)之間的融合這方面的研究是非常有潛力的。

還是那句話:用新能力,為舊需求,帶來新體驗(yàn),賣更多錢

如果我們從技術(shù)角度來解讀一下AI聽書相關(guān)能力的話,其實(shí)也有很多值得講的點(diǎn)。這個功能主要集成了自然語言處理(NLP)、語音合成(TTS,Text-to-Speech)等人工智能技術(shù)的創(chuàng)新應(yīng)用。以下是該功能的一些關(guān)鍵技術(shù)分析:

  1. 在聽書功能啟動時,系統(tǒng)首先需要解析電子書的文本內(nèi)容。這一過程包括識別文檔結(jié)構(gòu)、章節(jié)劃分、以及文字內(nèi)容的準(zhǔn)確提取。這一步驟對于確保流暢和準(zhǔn)確的聽書體驗(yàn)至關(guān)重要。
  2. 文本被解析后,通過語音合成技術(shù)將文本轉(zhuǎn)換成自然人聲。TTS技術(shù)涉及到文本分析、韻律建模、語音合成引擎等多個子領(lǐng)域。高質(zhì)量的TTS能夠生成接近真人的聲音,包括語調(diào)、停頓、重音等,以增強(qiáng)聽書的沉浸感和理解度。微信讀書可能采用了先進(jìn)的深度學(xué)習(xí)模型,如WaveNet或Tacotron系列,這些模型能夠生成更加自然流暢的語音。
  3. 用戶可以根據(jù)自己的偏好調(diào)整朗讀的語速、音色(如果應(yīng)用提供多種聲音選項(xiàng)的話)等參數(shù)。這背后的技術(shù)支持可能包括對預(yù)訓(xùn)練的TTS模型進(jìn)行微調(diào),或者利用算法動態(tài)調(diào)整音頻輸出參數(shù),以滿足用戶的個性化需求。
  4. 雖然主要功能是聽書,但結(jié)合“AI問書”功能,微信讀書還可能具備一定的問答能力,能夠在用戶有疑問時提供即時解釋。這要求系統(tǒng)具備一定的自然語言理解和知識圖譜技術(shù),能精準(zhǔn)定位到用戶提出問題的相關(guān)文本,并給出合理解答。
  5. 聽書過程中,微信讀書還會同步用戶的閱讀進(jìn)度,支持書簽功能,使得用戶在不同設(shè)備間切換時能無縫繼續(xù)聽書。這需要高效的云服務(wù)支持,以及良好的數(shù)據(jù)同步機(jī)制。

可以看到,在用戶視角下,一個比較簡單的功能,但是其中的技術(shù)過程還是非常復(fù)雜的。所以,當(dāng)AI能力與各種應(yīng)用傳統(tǒng)的核心使用場景相結(jié)合時,如果想提升用戶體驗(yàn)還還是需要更加系統(tǒng)性的思考。

三、AI大綱

AI大綱最重要的意義是增強(qiáng)了用戶在索引、記憶和閱讀靈活性等方面的能力。

使用AI技術(shù)對書籍內(nèi)容進(jìn)行分析和提煉,形成結(jié)構(gòu)化的大綱,讀者就能在短時間內(nèi)掌握全書的主旨和框架。

這不僅可以節(jié)省讀者的時間,還建議更好地理解和記憶內(nèi)容。用戶還可以通過AI大綱定位到自己感興趣的部分,進(jìn)行深入閱讀,或是選擇閱讀,以此來優(yōu)化個人的學(xué)習(xí)或休閑閱讀策略。

尤其在現(xiàn)在這種碎片化信息充斥著視野的環(huán)境下,用戶們閱讀長文章的耐心(能力)其實(shí)已經(jīng)比較低了。而書籍恰恰是更長的文章,如果沒有信息檢索能力幫助用戶找到需要閱讀的重點(diǎn),那閱讀體驗(yàn)將會很差。甚至沒閱讀完就放棄了。

在閱讀內(nèi)容詳實(shí)、信息量大的書籍時,用戶往往面臨信息過載的問題,難以快速把握全書要點(diǎn)。

AI大綱可以幫助用戶在短時間內(nèi)掌握書籍核心框架和各章節(jié)重點(diǎn),提高了閱讀效率和信息篩選能力。

對于知識型書籍,讀者通常需要深入理解并記住關(guān)鍵概念。AI大綱通過突出顯示每個部分的主要論點(diǎn)和結(jié)論,輔助讀者構(gòu)建知識體系,加深理解和記憶,避免因遺漏重要信息而影響對整體內(nèi)容的理解。

用戶在完成閱讀后,想要復(fù)習(xí)或回顧特定章節(jié)時,AI大綱也提供了一個方便快捷的途徑。用戶可以直接通過大綱找到感興趣或需要復(fù)習(xí)的部分,無需再次瀏覽全文,節(jié)省了時間。

對于時間有限或偏好跳躍式閱讀的用戶,AI大綱允許他們根據(jù)個人興趣或需求選擇閱讀順序。用戶可以直接跳轉(zhuǎn)到自己最關(guān)心的章節(jié)進(jìn)行深度閱讀,增加了閱讀的靈活性和個性化。

以上是AI大綱在閱讀前、閱讀中和閱讀后的一些意義,而對于一些特殊角色例如學(xué)生、研究人員等需要大量閱讀和整理資料的群體,AI大綱功能相當(dāng)于一個自動化的總結(jié)和筆記工具,幫助他們快速歸納書籍內(nèi)容,為撰寫論文、報告或做研究提供了便利。

AI大綱的技術(shù)原理流程圖大致如下:

四、AI翻譯

由于這個功能的意義相對簡單,所以放到最后,AI翻譯在跨語言閱讀難題、即時理解、專業(yè)術(shù)語理解等方面都能為用戶解決極大痛點(diǎn)。

在閱讀外文書籍或遇到不懂的外語詞匯時,AI翻譯功能可以直接提供翻譯,幫助用戶克服語言障礙,從更多來源獲取信息。也無需切換應(yīng)用或查閱紙質(zhì)詞典,AI翻譯的即時性讓用戶在閱讀時能迅速理解難點(diǎn),保持閱讀思路的連貫性沉浸性。

同時對于專業(yè)術(shù)語理解:針對專業(yè)書籍或領(lǐng)域特定詞匯,AI翻譯的優(yōu)勢也比較大,要知道很多外文包括英文并非想漢語一樣,是有很多單字來組詞滿足一些專業(yè)術(shù)語和新詞語的需求,而是出現(xiàn)一個新的概念就需要一個新的單詞來進(jìn)行表示。

例如,“計算機(jī)”(computer)這個詞是由“計算”(to calculate)和“機(jī)”(machine)組合而成。這樣的方法使得漢語能夠快速生成新詞,而不需要完全創(chuàng)造新的字符。

以英文為例,一個人的博學(xué)程度幾乎可以用他掌握的單詞數(shù)量來計算,以前作者看到一篇新聞就是以埃隆·馬斯克掌握大量工程學(xué)、航天技術(shù)、人工智能和商業(yè)等領(lǐng)域的專業(yè)術(shù)語而體現(xiàn)其能力。

對于整個產(chǎn)品而言,便捷的語言轉(zhuǎn)換服務(wù),還可以極大地拓寬了不同母語用戶的用戶群體,這也是很重要的一點(diǎn)。

作者認(rèn)為AI技術(shù)將繼續(xù)以多種方式深刻改變用戶體驗(yàn),從個性化、交互性、效率、可達(dá)性、情境感知、到創(chuàng)造性和便捷性等多個維度全面提升。以下是一些具體的改變方式:

  1. 個性化體驗(yàn):AI通過分析用戶行為、偏好和歷史數(shù)據(jù),提供個性化推薦,如個性化內(nèi)容、產(chǎn)品、服務(wù)或廣告,使用戶體驗(yàn)更加貼合個人需求,增加用戶粘性。例如,電商平臺的個性化商品推薦,音樂和視頻流媒體的定制化播放列表。
  2. 智能交互:自然語言處理和語音識別技術(shù)讓AI能理解并響應(yīng)用戶的口頭指令,提供語音交互,如虛擬助手、AI客服,減少用戶操作步驟,提升便捷性和友好性。同時,AI還能通過表情識別和情緒分析,提升交互的情感智能。
  3. 自動化與效率:AI自動化處理重復(fù)任務(wù),如信息摘要、文檔整理、數(shù)據(jù)分析,釋放用戶時間,使他們專注于更有價值的活動。AI還加速響應(yīng)時間,如即時翻譯、搜索結(jié)果,提升效率。
  4. 情境感知:AI能根據(jù)用戶所處的情境(位置、時間、設(shè)備、歷史行為)智能調(diào)整服務(wù),如智能家居根據(jù)作息自動調(diào)節(jié)燈光和溫度,旅行應(yīng)用根據(jù)天氣和交通狀況推薦行程。
  5. 創(chuàng)造性輔助:AI生成式技術(shù),如文本、圖像、音樂生成,為創(chuàng)作者提供靈感和輔助,加快創(chuàng)作過程,同時個性化內(nèi)容創(chuàng)作,提升用戶參與度和娛樂體驗(yàn)。
  6. 無障礙提升:AI助力實(shí)現(xiàn)無障礙設(shè)計,如自動字幕、語音轉(zhuǎn)文本,幫助視障、聽障人士,使技術(shù)惠及更廣泛人群,推動包容性設(shè)計。
  7. 教育與知識獲?。篈I個性化學(xué)習(xí)平臺,通過智能適應(yīng)性學(xué)習(xí)路徑和反饋,提供定制化教育資源,使學(xué)習(xí)更有效,同時AI輔助答疑,如“AI問書”,即時解答疑惑。
  8. 健康:AI在健康管理、心理健康支持、疾病預(yù)防和遠(yuǎn)程醫(yī)療方面發(fā)揮作用,通過監(jiān)測、預(yù)警、分析數(shù)據(jù),提供個性化建議,改善健康維護(hù)體驗(yàn)。
  9. 金融與服務(wù):AI在金融領(lǐng)域的應(yīng)用,如風(fēng)險管理、欺詐檢測、智能投顧,提升安全性同時個性化金融服務(wù),簡化流程,為用戶提供更快捷、安全的金融服務(wù)體驗(yàn)。

AI技術(shù)通過深度融入產(chǎn)品和服務(wù)的各個層面,不僅僅是提供定制化和即時的解決方案,還在創(chuàng)造新的交互方式,目前比較確定的就是未來的智能硬件產(chǎn)品將會以多模態(tài)交互的形式與用戶進(jìn)行交流,而不是今天的以觸屏為主。

以最新發(fā)布的ChatGPT-4o為例來講講多模態(tài)交互的意義大概如下:

如果僅僅把多模態(tài)交互能力理解成了我們可以不僅僅使用文字和GPT交流了,這么理解實(shí)在太小看多模態(tài)交互能力了。

要知道,人類通過文字表達(dá)和聲音表達(dá),即使是完全同樣的文本。所包含的信息也有很大的差別。文字只是靜態(tài)的信息,而聲音包含更多維度的信息。例如語音、語調(diào)、音量、語速、停頓、重音等等。

同樣是【你好】,文字只能表達(dá)1種含義,而聲音可能能表達(dá)4-6種。對于程序來說,多模態(tài)交互意味著從更多來源獲得信息(指視、聽、文、環(huán)境等來源)。也意味著獲得更多信息(例如剛剛所說的聲音維度的語音、語調(diào)、音量、語速、停頓、重音)。

這僅僅是從聲音一種模態(tài)中可以擴(kuò)展出的新信息,而多模態(tài)包括視覺、語音、圖像、文本、觸覺等等很多方面的信息通道。

從多來源獲得信息并獲得更多信息,GPT就可以縮短推理、判斷等過程,更快速的給與用戶回復(fù)。這就像是用戶自動的把提問描述的更詳細(xì)了,把自己的要求說的更清楚了,如此一來GPT給與反饋的速度和質(zhì)量自然會有對應(yīng)的提升。(當(dāng)然同樣也有模型方面帶來的提升)

除了聲音之外,GPT-4o的多模態(tài)交互能力還包括視覺理解能力,例如能識別圖像中的人臉,分析性別、年齡、表情等信息。這同樣是我們剛剛所說的從更多來源獲得信息以及獲得更多信息。

以上是多模態(tài)交互能力中,人向GPT輸入過程中的意義,那么對于人機(jī)交互的另一部分:GPT向人輸出的階段,同樣意義非凡。

GPT-4o可以根據(jù)需要以最合適的模態(tài)進(jìn)行回應(yīng),在之前GPT只能以文字進(jìn)行回復(fù),但之后則可以是文字、聲音、圖像。聲音模態(tài)的意義是支持更多交流場景以及對無障礙交互的包容。圖像的意義就不用多說了,無論是取代了命令行的圖形化界面,還是晉升答辯時準(zhǔn)備的PPT,都能體現(xiàn)圖像相對于文字的優(yōu)勢。

這里稍微展開了一點(diǎn)兒多模態(tài)交互的內(nèi)容。如果想要完全說明多模態(tài)交互的整個體系可能需要幾萬字,后面有時間再慢慢更新吧。

專欄作家

杜昭,微信公眾號:AI與用戶體驗(yàn),人人都是產(chǎn)品經(jīng)理專欄作者,實(shí)戰(zhàn)派設(shè)計師,目前在某手機(jī)公司負(fù)責(zé)手機(jī)OS交互設(shè)計,所負(fù)責(zé)產(chǎn)品覆蓋用戶數(shù)億,主要研究AI與人機(jī)交互設(shè)計的融合及人因?qū)W對用戶體驗(yàn)的影響。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!