以假亂真?AI數(shù)字人+外語學(xué)習(xí)功能讓用戶“相見恨晚”
AI大模型正在被應(yīng)用于大量行業(yè)與具體場景之中,其中,教育場景下的口語學(xué)習(xí)板塊,也延伸出了相應(yīng)的大模型應(yīng)用,搭配日益成熟的數(shù)字人技術(shù),AI大模型或許可以在教育場景里掀起新的變化。一起來看看本文的分享。
一項技術(shù)能否發(fā)揮自身價值和作用,很大程度取決于它在應(yīng)用場景的選擇。現(xiàn)在,AI大模型在各行各業(yè)得以應(yīng)用,如今更是將戰(zhàn)場延伸到了教育領(lǐng)域中的口語學(xué)習(xí)板塊。
當喜歡的外語片段可以通過AI生成貼近原聲且準確的對口型翻譯,或與AI數(shù)字人進行一對一對話和外語口語練習(xí),面部表情生動而真實,如此具有真實感的AI,能成為用戶在學(xué)習(xí)方面的強力助手嗎?
一、完全對口型翻譯?HeyGen平臺讓AI數(shù)字人更生動
近段時間,小紅書博主“johnhuu 教英語”發(fā)布的一條視頻引起海內(nèi)外的社交媒體紛紛刷屏轉(zhuǎn)發(fā)。
視頻中將泰勒·斯威夫特、艾瑪·沃特森和“憨豆先生”的演員羅溫·艾金森的原聲視頻通過AI技術(shù)翻譯內(nèi)容并轉(zhuǎn)化成與本人聲音相似的普通話,并同步修改口型生成新的視頻。
除了英文原聲轉(zhuǎn)中文,博主還反過來,使用蔡明的講話片段實現(xiàn)了流暢的中文轉(zhuǎn)英文。生成后的視頻的仿真程度令人震驚,沒有傳統(tǒng)譯制片配音的腔調(diào),聲音也很“貼臉”,更像是本人在用中文說話。
也有網(wǎng)友表示了對AI技術(shù)仿真程度越來越高且難以辨別的擔憂,博主表示“目前也不是一鍵搞定的事情,分好幾個步驟,翻譯,聲音克隆和換嘴,每一個步驟都要做到到頂尖才能夠毫無破綻?!?/p>
在HeyGen的官方X(原推特)轉(zhuǎn)發(fā)上,也能看到不少使用HeyGen實現(xiàn)八國語言流暢切換的案例。
多數(shù)網(wǎng)友表示:普遍感覺翻譯基本準確,但細節(jié)仍需要根據(jù)上下文進行細微調(diào)整;目前更像是“直譯”而不是“本地化翻譯”,但已經(jīng)足夠理解視頻所述內(nèi)容。盡管如此,網(wǎng)友們還是扒到了擁有如此精細的“AI對口型”能力的視頻生成工具HeyGen,其背后的公司是一家總部位于深圳的AI內(nèi)容生產(chǎn)系統(tǒng)開發(fā)商,詩云科技。
據(jù)了解,詩云科技的聯(lián)合創(chuàng)始人兼CEO徐卓(Joshua Xu),碩士畢業(yè)于卡內(nèi)基梅隆大學(xué)計算機專業(yè),本科畢業(yè)于同濟大學(xué)自動化專業(yè),是Snapchat前100號員工(2014 – 2020)、廣告事業(yè)部No.2工程師,核心技術(shù)Leader;曾在6年間從0到1搭建Snapchat廣告平臺、推薦算法系統(tǒng)以及機器學(xué)習(xí)平臺Barista(百億級數(shù)據(jù)), 并負責(zé)AI Camera的技術(shù)及產(chǎn)品研發(fā)。
圖源:X(原推特)
他認為:“視頻翻譯對于YouTube用戶和教育部門來說有著關(guān)鍵作用。試想一下:打破語言障礙能讓全世界的人都可以訪問視頻內(nèi)容,而不僅僅是那10%的英語用戶……但如果有這樣一個平臺,每段視頻都可以用任何語言觀看,而且像母語一樣流暢呢?這不僅僅是一個翻譯功能,而是一種新的內(nèi)容消費模式。語言人工智能只是一個起點。一旦我們做到了這一點,個性化和增強用戶體驗的可能性幾乎是無窮無盡的。這不僅能重新定義內(nèi)容消費方式,還能重新定義內(nèi)容的創(chuàng)建和盈利方式?!?/p>
在HeyGen平臺,宣稱可以提供一鍵式視頻生成AI工具,以低成本的方式(不用昂貴的拍攝設(shè)備、演員、復(fù)雜的剪輯工具和第三方剪輯團隊)僅需通過三個步驟即可生成一條數(shù)字人視頻。
陀螺君也嘗試用HeyGen平臺生成數(shù)字人視頻。(以下HeyGen平臺截圖為免費試用版界面)
第一步,從平臺中134個AI形象進行選擇或上傳自己的照片形象。
圖源:HeyGen
第二步,從40多種語言中根據(jù)性別和視頻場景(包括產(chǎn)品/內(nèi)容營銷、培訓(xùn)學(xué)習(xí)等)選擇不同聲線的語音,也可以選擇上傳自己的一段錄音進行克隆。
圖源:HeyGen
第三步,通過內(nèi)置GPT4腳本編寫器修改文本或翻譯內(nèi)容,最終導(dǎo)出AI數(shù)字人視頻(在幾分鐘不到的時間內(nèi)即可生成一條十幾秒的視頻)。
圖源:HeyGen
通過官方提供的素材模板和AI形象陀螺君導(dǎo)出了一條視頻,AI數(shù)字人的口型動作都非常自然,HeyGen平臺也支持GPT4接入,一定程度上節(jié)約了構(gòu)想文案的時間。
然而GPT4腳本編寫器的翻譯成中文容易出現(xiàn)“重復(fù)的廢話”,縮寫后也不夠流暢,需要人工校對,也正如上文小紅書的博主所述,要讓AI完全摒棄“人工”這一環(huán)節(jié),實現(xiàn)“自動化”產(chǎn)出視頻目前不大可能,每一個環(huán)節(jié)都還需要在細節(jié)上進行調(diào)整。
HeyGen用到的AI技術(shù)(圖源:X)
即便如此,這樣的AI數(shù)字人視頻生成工具將生活記錄、課堂記錄、演講片段等視頻轉(zhuǎn)化成各種語言的版本,實現(xiàn)無語言障礙的流暢觀看,已經(jīng)能夠滿足人們在日常生活中的使用。
二、社恐福音,AI數(shù)字人開始成為外語學(xué)習(xí)“陪練”
生成式AI的流行帶火了AI數(shù)字人,其以迅雷不及掩耳之勢,襲卷業(yè)務(wù)助手、直播帶貨、教育培訓(xùn)、虛擬陪伴等各個領(lǐng)域。相關(guān)閱讀:《30天攬金5千萬,AI數(shù)字人能否成為普通人的「財富密碼」?》
無論是應(yīng)試、留學(xué)、去外企工作還是提高個人能力,通常情況下,倘若要學(xué)習(xí)一門外語,日常生活中需要保證一定程度的“聽說讀寫”訓(xùn)練。
網(wǎng)絡(luò)上也有不少的經(jīng)驗總結(jié)分享,例如學(xué)習(xí)英語:配合外語學(xué)習(xí)APP,多看感興趣的全英文外語視頻,最好不看字幕;用自己的語言翻譯自己看到或聽到的內(nèi)容,也包括書籍/新聞;只有輸入沒有輸出還不行,最重要的口語練習(xí)不能忽視。
圖源:小紅書
然而不少人對使用外語進行對話感到害怕,既難以開口怕說錯話,也不敢表達出自己的意思……久而久之,使用線上聊天的社交應(yīng)用或在小紅書找口語“搭子”成為了新的練習(xí)口語方式。
如今,AI數(shù)字人也開始在口語教學(xué)領(lǐng)域占得一席地位。這些AI數(shù)字人形象各異,全天候在線,打開聊天窗口就能開始交流。基于對話式AI和LLM大語言模型的能力再結(jié)合語音識別和生動的虛擬圖像不僅能提供口語表達反饋,糾正語法錯誤,不同類型的AI數(shù)字人還能在不同領(lǐng)域帶來有趣的討論。
從左到右分別是《Call Annie》《Call Ella》和《Hi Echo》(圖源:網(wǎng)絡(luò))
其中最受關(guān)注的AI數(shù)字人之一是《Call Annie》,該應(yīng)用由Animato.Ai開發(fā),目前僅適用于iOS 16及以上版本進行視頻聊天(除了能直接撥號進行虛擬電話聊天,還可在網(wǎng)頁進行網(wǎng)絡(luò)語音聊天),其背后的技術(shù)模型為ChatGPT,相當于將ChatGPT擬人化,更像是在進行真人視頻對話。
另外兩款A(yù)I數(shù)字人應(yīng)用《Call Ella》和《Hi Echo》均是國內(nèi)“類《Call Annie》”的AI智能外教程序?!禖all Ella》由K12英語智能教育服務(wù)品牌“去上學(xué)”提供,而《Hi Echo》則由網(wǎng)易有道推出,搭載其教育大模型“子曰”。兩款A(yù)I數(shù)字人應(yīng)用同樣擁有實時互動、語法糾錯、評分和話題切換等功能。
體驗下來,要實現(xiàn)正常的交流并不困難,如果要解鎖定制化服務(wù)則需要付費,只是還做不到能像《Call Annie》那樣侃侃而談的程度,面部表情和語音口型的變化速度稍慢一些,比起《Call Annie》,在英語學(xué)習(xí)方面,《Call Ella》和《Hi Echo》的定位更加清晰。
這種形式的教學(xué)方式也可以更好地模擬真實的教學(xué)過程,感覺像是和真實的老師進行交流,如此一來,口語練習(xí)的對話環(huán)境問題能夠得到解決,學(xué)生也不會再有太多顧慮。
三、改變教育模式,AI數(shù)字人+大模型再上新臺階
AI技術(shù)的普及也在改變傳統(tǒng)的教育模式,而AI大模型正在成為教育類智能終端以及軟件應(yīng)用的一項重要標配。
IDC預(yù)計,到2027年中國教育學(xué)習(xí)市場將超1500億美元,AI成為重要競爭力。
圖源:IDC
此前AI功能僅作為教育軟硬件的亮點輔助功能,為學(xué)生提供AI拍照搜題、AI翻譯以及AI作業(yè)批改等支持,而AI大模型與教育有著高度適配的能力,具有了多語言理解、文本生成、智能問答、等功能后,此前的AI能力不僅得到提升,還讓教學(xué)模式更加生動和智能化。
今年5月以來,多家公司公布了教育領(lǐng)域的AI大模型及教育產(chǎn)品,包括上文提到的網(wǎng)易有道AI外教,科大訊飛在今年5月推出了星火認知大模型+AI學(xué)習(xí)機,作業(yè)幫于9月發(fā)布自研銀河大模型,將應(yīng)用到旗下APP在內(nèi)的多項業(yè)務(wù)場景。
10月,讀書郎也發(fā)布了讀書郎教育大模型及其AI學(xué)習(xí)機,另一邊,2023百度世界大會上,百度發(fā)布了基于文心一言4.0技術(shù)的小度青禾學(xué)習(xí)一體機。
在不到半年的時間內(nèi),搭載AI大模型的學(xué)習(xí)機教育產(chǎn)品就已經(jīng)十分“內(nèi)卷”。而AI數(shù)字人,又能對未來的教育帶來怎樣的影響?
圖源:央視網(wǎng)
10月31日,2023杭州云棲大會在杭州市西湖區(qū)云棲小鎮(zhèn)開幕。據(jù)悉現(xiàn)場展示了多項AI大模型領(lǐng)域研究成果和行業(yè)模型應(yīng)用。無論是阿里通義實驗室的大語言模型“通義千問”,杭州亞運會開幕式上出現(xiàn)的“數(shù)字火炬手”,還是展會現(xiàn)場能夠與觀眾吟詩作對的“少年李白”數(shù)字人,都進一步證明了以AI大模型為支撐的AI數(shù)字人,正在改變知識文化的交流方式。
就像學(xué)音樂,有條件的最好跟從名師,但名師也十分稀缺,在同時面對多數(shù)學(xué)生的情況下,無法做到一對一教學(xué),而AI大模型的加持降低了優(yōu)秀教學(xué)資源的使用門檻,讓普通學(xué)生也能得到進一步的練習(xí)。
但現(xiàn)階段的AI大模型受限于訓(xùn)練數(shù)據(jù)的量級和一些錯誤性信息的影響,可能仍會輸出不準確的回答,而教育對內(nèi)容信息有著非常嚴謹且科學(xué)的高要求,這對所有的AI大模型來說,都是巨大的考驗。帶有AI大模型的教育產(chǎn)品能否讓家長接受,讓學(xué)生用得好,還需要市場的進一步驗證。
作為一項新興的技術(shù),AI的潛力得以放大,搭配日益成熟的數(shù)字人技術(shù),在未來或能帶起新的一輪教育行業(yè)的變革。
作者:豌豆
來源公眾號:VR陀螺(ID:vrtuoluo),XR行業(yè)垂直媒體,關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!