搶占AI翻譯賽道,搜索平臺為何不約而同發(fā)力NMT?

1 評論 3906 瀏覽 10 收藏 13 分鐘

不論是國外的谷歌,還是國內(nèi)的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標(biāo)配,翻譯集中的領(lǐng)域在中英互譯上,這是一個很有趣的現(xiàn)象。AI翻譯真的是塊肥肉嗎?為什么要發(fā)力NMT?

搜索公司在AI翻譯這個事上扎堆并不令人意外。

2016年,GNMT技術(shù)(谷歌的神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù),模仿人腦的神經(jīng)思考模式)全面布局于谷歌翻譯系統(tǒng)中,隨后,谷歌聲稱其AI翻譯的譯文質(zhì)量誤差降低了55%-85%,并且將此技術(shù)廣泛應(yīng)用于網(wǎng)頁翻譯與手機應(yīng)用。

國內(nèi),百度當(dāng)時已經(jīng)研究出了可應(yīng)用的SMT技術(shù)(統(tǒng)計機器翻譯),但得知NMT的橫空出世之后,便迅速調(diào)轉(zhuǎn)方向轉(zhuǎn)而研發(fā)NMT技術(shù),于是就有了BNMT應(yīng)用于百度翻譯。盡管初時的百度翻譯速度很慢。但是,百度當(dāng)時反應(yīng)也佐證NMT的價值性。

搜狗、阿里、騰訊等公司也都有部署NMT領(lǐng)域,推出多款基于神經(jīng)網(wǎng)絡(luò)的在線翻譯和手機應(yīng)用,在智能翻譯領(lǐng)域持續(xù)發(fā)力。360搜索也不愿落后,上線了基于NMT的360翻譯,以期與去年上線的360英文搜索形成合力,且還拉來了微軟旗下的搜索引擎Bing開展技術(shù)合作。

但是我們會發(fā)現(xiàn):不論是谷歌還是BAT,其智能翻譯從未能聲稱能替代人工翻譯,因為翻譯還必須考慮到到使用者的情感及文化背景。從2016年起至今的兩年時間里,對海量語料的深度學(xué)習(xí)逐漸成為AI開發(fā)的必修課,也成了巨頭們布局AI翻譯繞不過的“坎”。

搜索平臺不約而同發(fā)力NMT,為的是哪般?

前面說到,不論是國外的谷歌,還是國內(nèi)的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標(biāo)配,翻譯集中的領(lǐng)域在中英互譯上,這是一個很有趣的現(xiàn)象。AI翻譯真的是塊肥肉嗎?惹得誰也不愿意掉隊。

據(jù)統(tǒng)計表明:全球一共有73個國家,超10億人以英語為官方語言,而漢語則是世界使用人數(shù)最多的語言。因此,中英互譯本身的用戶基數(shù)市場就能引起巨頭們足夠的注意力了。

為什么要發(fā)力NMT?

這得從AI翻譯人類語言的方式說起,包含三種:

  • 第一,基于規(guī)則的機器翻譯方法;
  • 第二,基于實例的機器翻譯方法;
  • 第三,基于統(tǒng)計的翻譯方法。

SMT與NMT都屬于第三種,從語料自動學(xué)習(xí)翻譯模型,結(jié)合大數(shù)據(jù)通過評分輸出翻譯結(jié)果。但是,SMT與NMT存在著顯著的差距。

SMT采用的模式是通過平行語料進行統(tǒng)計分析,翻譯的準(zhǔn)確性則與語料的豐富度呈明顯的正相關(guān),但是存在著翻譯結(jié)果太過零散,片面生硬,語法語義混亂的劣勢。

而模仿人類神經(jīng)網(wǎng)絡(luò)構(gòu)建模型,NMT是以一個句子為基本的處理單元,好處在于翻譯過程中有著更好的語感,能降低SMT翻譯的關(guān)于“形態(tài)、句法、詞序”等方面出錯的概率。

因此,NMT在技術(shù)上恰巧可以有效彌補SMT的缺陷。而隨著語料不斷地加碼,AI翻譯的準(zhǔn)確度也就高得多。

AI翻譯引進NMT技術(shù),就能精準(zhǔn)識別“語境”嗎?

搜狗同傳翻譯在某次國際性會議上,聲稱其神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)已達(dá)臨界點,并在進行大規(guī)模商用推廣。只是,搜狗的同傳還是在國際會議上出過爭議,結(jié)果不盡如人意。

即便在正式的場合能夠應(yīng)對自如的搜狗,在非正式場合會是怎樣一種情況呢?

很多時候的中英交流多以口語化形式出現(xiàn),對“語境”的理解遠(yuǎn)比“語法和詞匯”難得多。下文我們將就幾組語句進行討論,以下從搜狗、360搜索、百度以及谷歌四大平臺進行對比。

第一組:獻上我的膝蓋。

看看,最近這句網(wǎng)絡(luò)常用語各翻譯平臺的水平

  • 谷歌:Offer my knee。
  • 360:express my admiration。
  • 百度:Offer my knees。
  • 搜狗:Give me my knee。

測試結(jié)果是搜狗、百度、谷歌均傾向于單詞表面意思的翻譯,并未能結(jié)合具體的文化背景,360對于該網(wǎng)絡(luò)用語的解釋稍顯老練。

第二組:詩詞,選自杜甫的《登高》。

因其詩中主要是以諸多意象組成的意境,看翻譯能否反饋這種情感。

《登高》原文摘選:風(fēng)急天高猿嘯哀,渚清沙白鳥飛回。

英語譯文:

有趣的是將各自翻譯的英文譯成中文時,沒有一個平臺能還原。而在詩歌的中譯英中360能夠結(jié)合“語境”處理詩中的意向要素,搜狗翻譯表達(dá)出了“悲愴”的情感,而百度翻譯和谷歌翻譯則完全是從字面上進行翻譯,破壞了詩的美好。

第三組:新聞,選自紅網(wǎng)。

語言簡練正式,但涉及的元素較多,對語法的要求性比較高。

原文:據(jù)長沙市住房和城鄉(xiāng)建設(shè)委員會網(wǎng)站顯示,2018年5月23日,長沙共計有兩個項目獲批預(yù)售證,均位于雨花區(qū),分別為五礦萬境藍(lán)山和創(chuàng)元時代。

譯文:

同一段新聞,出現(xiàn)了四種不同的譯法。同一語句中各家強調(diào)的點不一樣,譬如:首句的“長沙市住房和城鄉(xiāng)建設(shè)委員會”,360的翻譯結(jié)果更顯得專業(yè)并符合慣常表述。“長沙市”只是作為補充詞出現(xiàn),而搜狗、百度和谷歌的翻譯中,“長沙市”則是作為硬性的地名出現(xiàn)。

尤為值得注意的是:根據(jù)語境,“五礦萬境藍(lán)山”和“創(chuàng)元時代”都是樓盤名字,應(yīng)當(dāng)由漢語拼音直譯,只有360識別到這一點,搜狗、百度和谷歌三家都在“礦”、“藍(lán)山”、“創(chuàng)元”、“時代”等字眼上糾結(jié)。

從這三組中,我們能發(fā)現(xiàn)360偏好于基于“語境”的邏輯進行分詞,雖然也有做的不到位的,像針對詩詞這樣復(fù)雜的情感語句就無法準(zhǔn)確傳達(dá),但是在“流行語”優(yōu)勢明顯。

而谷歌和百度基本上是基于詞組進行斷句,因此,翻譯也是一個詞一個詞,尤其是對古詩詞的理解,谷歌就顯得比較憂愁了。

因此,AI翻譯的問題主要反映在三大方面:

  • 第一,機器翻譯難以應(yīng)對語言規(guī)則不統(tǒng)一的口語;
  • 第二,AI翻譯難以結(jié)合文化語境進行理解,解析不出深層次的情感;
  • 第三,針對較長的段落,以及較為復(fù)雜的語境,往往會出現(xiàn)語法問題多,語句出錯率高的毛病。

AI翻譯要“地道”,技術(shù)倒不是關(guān)鍵

翻譯界老將何恩培曾講:

“機器翻譯一直被公認(rèn)為人工智能領(lǐng)域最難的課題之一。而且語言背后的多元文化和復(fù)雜社會屬性,注定了語言規(guī)則不可能規(guī)律化”。

但是,中國有句老話:勤能補拙。

對于AI翻譯而言,最難的不是技術(shù),而是“語境”理解,而AI翻譯能力的級別高低又體現(xiàn)在這,集中體現(xiàn)了平臺喂養(yǎng)語料的資源狀況。AI翻譯能否“地道”,取決于以下幾點。

1. 訓(xùn)練數(shù)據(jù)庫的內(nèi)容整體優(yōu)質(zhì)程度

這影響到翻譯準(zhǔn)確程度,取決于信息資源的整合能力。不論是BAT,還是360、搜狗、有道等,都在注重內(nèi)容生態(tài)建設(shè),搜狗有了騰訊微信入口搜索,360搶占了安全領(lǐng)域的數(shù)據(jù)來源。

但是,這不可能是一個完全開放的體系,沒有哪一家能夠整合整個互聯(lián)網(wǎng)的資源,各平臺訓(xùn)練數(shù)據(jù)庫各有側(cè)重,AI翻譯特色也不盡相同,例如:360翻譯側(cè)重于地道的口語與流行語,百度翻譯則顯得大而全。

2. 開放平等的中外數(shù)據(jù)交流,或可加強AI的深度學(xué)習(xí)

國內(nèi)對標(biāo)競品之間的合作相對較難,但中外數(shù)據(jù)交流卻是最好的互補。因此,百度上線過英文搜索產(chǎn)品,而360與微軟Bing有過技術(shù)合作。

此外,有了國界互譯也變得更有意義。因此,中外數(shù)據(jù)合作,或許對于文化背景的數(shù)據(jù)積淀有很好的補充,也是擴充深度學(xué)習(xí)的語料最直接的方式。

3. 需要準(zhǔn)備大量的網(wǎng)絡(luò)語及口語語料

除了詩詞蘊含深厚文化底蘊外,網(wǎng)絡(luò)語和口語是與一個地域的文化最為接近的語言形態(tài),時下搜索引擎從被動搜索向主動的,基于用戶興趣的內(nèi)容推薦引擎轉(zhuǎn)型,這對于構(gòu)建口語語料訓(xùn)練模型倒是一個不錯的嘗試。

總之,AI翻譯能夠精準(zhǔn)識別“語境”是需要很長一段路要走!

【完】

#專欄作家#

曾響鈴,微信公眾號:科技向令說,人人都是產(chǎn)品經(jīng)理專欄作家。TMT新媒體“鈴聲”創(chuàng)始人,《移動互聯(lián)網(wǎng)+ 新常態(tài)下的商業(yè)機會》《趨勢革命:重新定義未來四大商業(yè)機會》作者,《網(wǎng)紅經(jīng)濟學(xué)》作者之一,《商界》等多家雜志撰稿人。重點關(guān)注SaaS、智能硬件、互聯(lián)網(wǎng)金融、O2O、新媒體運營方向。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Pixabay,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!