GPT-2:OpenAI的NLP商業(yè)化野望
文章回顧了近幾年NLP的升級歷程,從三個階段的發(fā)展帶我們梳理了NLP演進(jìn)的脈絡(luò)。
自然語言處理(NLP)技術(shù)正在生活的方方面面改變著我們的生活??蛷d的智能音箱在跟你每天的對話中飛速進(jìn)步,甚至開始跟你“插科打諢”來適應(yīng)你的愛好習(xí)慣。
- 電商客服總是能在第一時間回復(fù),可能處理完你的問題,你也并未發(fā)覺TA可能只是一個智能客服?,F(xiàn)實版的“圖靈測試”每天都在發(fā)生。
- 經(jīng)常查閱外文資料的你也許早已習(xí)慣網(wǎng)頁或幾家搜索引擎的一鍵翻譯,譯文的質(zhì)量好到讓你覺得學(xué)外語的時間純屬浪費。
- 閑來無聊當(dāng)你刷信息流或者短視頻,總是事后發(fā)現(xiàn)沉迷其中的時間越來越多,其實背后正是自然語言算法平臺在根據(jù)你的瀏覽習(xí)慣、注意力時長來進(jìn)行的優(yōu)化推薦。
由果溯因,我們希望簡單回顧近幾年NLP的躍遷升級,沿著這條技術(shù)洪流一直溯源?;氐剿闯渑?、水系林立的技術(shù)源頭,來理解NLP演進(jìn)的脈絡(luò)。
NLP兩強(qiáng)爭霸:OpenAI與GPT-2的“倔強(qiáng)”進(jìn)擊
關(guān)注NLP的人們一定知道,2018年是NLP領(lǐng)域發(fā)展的大年。2018年6月,OpenAI發(fā)表了題為《Improving Language Understanding by Generative Pre-Training》的論文,提出基于“預(yù)訓(xùn)練語言模型”的GPT,它首先利用了Transformer網(wǎng)絡(luò)代替了LSTM作為語言模型,并在12個NLP任務(wù)中的9個任務(wù)獲得了SOTA的表現(xiàn)。但種種原因GPT并未獲得更大關(guān)注。
GPT的基本處理方式是在大規(guī)模語料上進(jìn)行無監(jiān)督預(yù)訓(xùn)練,再在小得多的有監(jiān)督數(shù)據(jù)集上為具體任務(wù)進(jìn)行精細(xì)調(diào)節(jié)(fine-tune)的方式,不依賴針對單獨任務(wù)的模型設(shè)計技巧,可以一次性在多個任務(wù)中取得很好的表現(xiàn)。
直到10月,谷歌的BERT(Bidirectional Encoder Representation from Transformers)問世,一經(jīng)發(fā)布便得到各界廣泛關(guān)注。BERT模型在11項NLP任務(wù)中奪得SOTA的表現(xiàn),更是令谷歌技術(shù)人員宣告“BERT開啟了NLP新時代”的宣言。
而BERT其實采用了和GPT完全相同的兩階段模型,首先是無監(jiān)督的語言模型預(yù)訓(xùn)練;其次是使用Fine-Tuning模式解決下游任務(wù)。其不同之處在于BERT在預(yù)訓(xùn)練階段采用了類似ELMO的雙向語言模型,且使用了更大數(shù)據(jù)規(guī)模用于預(yù)訓(xùn)練。
BERT在改造NLP下游任務(wù)(包括序列標(biāo)注,比如中文分詞、詞性標(biāo)注、命名實體識別、語義角色標(biāo)注等;第二類是分類任務(wù),比如文本分類、情感計算等;句子關(guān)系判斷,比如Entailment,QA,語義改寫,自然語言推理等;生成式任務(wù),比如機(jī)器翻譯、文本摘要、寫詩造句、看圖說話等)上面,強(qiáng)大的普適性和亮眼的任務(wù)表現(xiàn),成為它爆紅NLP的底氣。
僅僅四個月后,OpenAI發(fā)布GPT-2。這一大規(guī)模無監(jiān)督NLP模型,可以生成連貫的文本段落,刷新了7大數(shù)據(jù)集SOTA表現(xiàn),并且能在未經(jīng)預(yù)訓(xùn)練的情況下,完成閱讀理解、問答、機(jī)器翻譯等多項不同的語言建模任務(wù)。
首先,CPT-2、BERT與GPT一樣,延續(xù)Transformer的Self-Attention(自注意)作為底層結(jié)構(gòu)。OpenAI研究人員對無監(jiān)督數(shù)據(jù)訓(xùn)練的堅持也許來自于這樣一個思路:監(jiān)督學(xué)習(xí)會造成語言模型僅能處理特定任務(wù)表現(xiàn)很好,而在泛化能力表現(xiàn)很差;而單純依靠訓(xùn)練樣本的增加,很難有效實現(xiàn)任務(wù)擴(kuò)展。
因此,他們選擇在更通用的數(shù)據(jù)集基礎(chǔ)上使用自注意力模塊遷移學(xué)習(xí),構(gòu)建在 zero-shot 情況下能夠執(zhí)行多項不同NLP任務(wù)的模型。
與BERT的不同在于,CPT-2模型結(jié)構(gòu)仍然延續(xù)了GPT1.0的“單向語言模型”。GPT-2似乎只有一個目標(biāo):給定一個文本中前面的所有單詞,預(yù)測下一個單詞。這一點倔強(qiáng)堅持,可以看出OpenAI的解決思路。它選擇把Transformer模型參數(shù)擴(kuò)容到48層,包含15億參數(shù)的Transformer模型,找到一個800 萬網(wǎng)頁(WebText)數(shù)據(jù)集作為無監(jiān)督訓(xùn)練數(shù)據(jù)。
簡單說,GPT-2 就是對 GPT 模型的直接擴(kuò)展,在超出 10 倍的數(shù)據(jù)量上進(jìn)行訓(xùn)練,參數(shù)量也多出了 10 倍。這讓GPT-2采用更加直接“暴力”的方式,單靠提升模型參數(shù)容量和增加訓(xùn)練數(shù)據(jù)的數(shù)量來超過BERT。
GPT-2作為一個文本生成器,只要在開始輸入只言片語,這個程序會根據(jù)自己的判斷,決定接下來應(yīng)該如何寫作。簡言之,GPT-2作為通用語言模型,可以用于創(chuàng)建AI 寫作助手、更強(qiáng)大的對話機(jī)器人、無監(jiān)督語言翻譯以及更好的語音識別系統(tǒng)。OpenAI 設(shè)想,人們可能出于惡意目的利用GPT-2來生成誤導(dǎo)性新聞、網(wǎng)上假扮他人欺詐、在社交媒體自動生產(chǎn)惡意或偽造內(nèi)容、自動生產(chǎn)垃圾或釣魚郵件等內(nèi)容。
所以,OpenAI在發(fā)布GPT2的同時就宣稱“這種強(qiáng)力的模型有遭到惡意濫用的風(fēng)險”,選擇不對訓(xùn)練模型做完整開源,這一舉動引來機(jī)器學(xué)習(xí)&自然語言處理界研究人員的激烈討論。無論是被外界嘲諷為對自家產(chǎn)品的“過分自負(fù)”,還是OpenAI出于PR目的的“故意炒作”,GPT-2 “刻意制造假新聞”的實力確實驚艷到了業(yè)內(nèi)眾人。各位吃瓜群眾一邊實力吐槽,一邊又迫不及待想探究GPT-2的強(qiáng)大生成能力。
經(jīng)過將近一年時間, GPT-2在謹(jǐn)慎開源和開發(fā)者的“嘗鮮”參與中,進(jìn)行著眼花繚亂的更新演進(jìn)。
GPT-2階段開源:帶給開發(fā)者的土味狂歡
伴隨爭議和開發(fā)者高漲的呼聲,OpenAI仍然出于謹(jǐn)慎考慮,選擇了分階段開源。8月以后,它分階段發(fā)布了“小型的”1.24 億參數(shù)模型(有 500MB 在磁盤上),“中型的”3.55 億參數(shù)模型(有 1.5GB 在磁盤上 ),以及 7.74 億參數(shù)模型(有 3GB 在磁盤上 )。
直到11月6日,它正式放出GPT-2最后一個部分的包含15億參數(shù)的最大版本的完整代碼。一直到完整版本公布,OpenAI并未發(fā)現(xiàn)任何明確的代碼、文檔或者其他濫用實證,也就是說一直擔(dān)心的“GPT-2遭到濫用”的結(jié)果并沒有發(fā)生,但OpenAI仍然認(rèn)為,全面版本發(fā)布同時也會讓惡意人士有機(jī)會進(jìn)一步提高檢測逃避能力。
所以,伴隨著GPT-2不同版本的陸續(xù)公布,OpenAI自身與多家復(fù)現(xiàn)GPT-2模型的團(tuán)隊進(jìn)行交流,驗證GPT-2的使用效果,同時也在避免濫用語言模型的風(fēng)險,完善檢測文本生成的檢測器。
同時,OpenAI也還在與多家研究機(jī)構(gòu)合作,比如對人類對語言模型產(chǎn)生的數(shù)字信息的敏感性的研究,對惡意利用GPT-2的可能性的研究,對GPT-2生成文本的統(tǒng)計可檢測性的研究。無論OpenAI出于怎樣的謹(jǐn)慎,隨著不同容量參數(shù)模型的發(fā)布,外界開發(fā)人員已經(jīng)迫不及待進(jìn)行各種方向的探索了。
2019年4月,Buzzfeed 數(shù)據(jù)科學(xué)家 Max Woolf使用Python封裝了具有 1.17 億超參數(shù)的“較小”版本的 OpenAI GPT-2 文本生成模型進(jìn)行微調(diào)和生成腳本,開源了一個“GPT-2 精簡版”,從而更好地幫助人們生成一段文本,里面可以給出很多出人意料的內(nèi)容。
在OpenAI逐步開源的過程里,來自布朗大學(xué)的兩位研究生就率先自己動手復(fù)制出一個 15 億參數(shù)量的 GPT-2,并將其命名為 OpenGPT-2。過程中,他們使用自己的代碼從零開始訓(xùn)練 GPT-2 模型大約只花費了 5 萬美元。所用的數(shù)據(jù)集也盡可能參照OpenAI論文里公開的方法。
有很多熱心網(wǎng)友的測試后表示,OpenGPT-2 的輸出文本效果優(yōu)于 OpenAI 的 GPT-2 7.74 億參數(shù)版本。當(dāng)然,也有人認(rèn)為,并沒有比GPT-2模型生成的文本效果更好。
同時在國內(nèi),一個位于南京名叫“Zeyao Du”的開發(fā)者,在GitHub上開源了的GPT-2 Chinese,可以用來寫詩、新聞、小說和劇本,或是訓(xùn)練通用語言模型。這一能夠?qū)崿F(xiàn)逆天效果GPT-2模型,用到了15億個參數(shù)。目前他開源了預(yù)訓(xùn)練結(jié)果與 Colab Demo 演示,只需要單擊三次,人們就可以生成定制的中文故事。
GPT-2模型還有更多嘗試。一個新加坡高中生Rishabh Anand開源了一個輕量級GPT-2“客戶端”——gpt2-client,它是一個GPT-2 原始倉庫的包裝器,只需5行代碼就可以實現(xiàn)文本生成。
來自中國的幾個研究者正在用GPT模型生成高質(zhì)量的中國古典詩歌。比如論文里提到的一首《七律·一路平安》:“一聲天際雁橫秋,忽夢青城舊友游。路入青林無去馬,手?jǐn)y黃牒有歸舟。平生志業(yè)商山老,何日公卿漢署留。安得相從話疇昔,一樽同醉萬山頭”。
一場平平淡淡的送別,寫得就飽含滄桑、充滿離愁。不難讓人懷疑:這個語言模型是否真的有了感情?
GPT-2模型還可以用在音樂創(chuàng)作上。OpenAI推出一種用于生成音樂作品的深層神經(jīng)網(wǎng)絡(luò)——MuseNet,正是GPT-2語言模型Sparse Transformer相同的通用無監(jiān)督技術(shù),允許MuseNet根據(jù)給定的音符組預(yù)測下一個音符。該模型能夠用10種不同的樂器制作4分鐘的音樂作品,并且能夠從巴赫,莫扎特,披頭士樂隊等作曲家那里了解不同的音樂風(fēng)格。它還可以令人信服地融合不同的音樂風(fēng)格,以創(chuàng)造一個全新的音樂作品。
最讓筆者感興趣的是一位開發(fā)者通過GPT-2做出的一款A(yù)I文字冒險游戲——“AI地牢”。通過多輪文本對話, AI就可以幫你展開一段意想不到的“騎士屠龍”征途或者“都市偵探”之旅。在未來的游戲產(chǎn)業(yè)中,AI創(chuàng)造的故事腳本,也許可能更具想象力?
GPT-2發(fā)布的一年里,以上開源帶來的應(yīng)用足以稱之為眼花繚亂。喧鬧與繁榮背后,除了在在開源風(fēng)險上的小心謹(jǐn)慎,OpenAI還面臨著哪些難題?
NLP的土豪賽:OpenAI聯(lián)姻微軟后的 GPT-2商業(yè)化
其實,我們從BERT和GPT-2的演進(jìn)趨勢,可以看出人類利用更大容量的模型、無監(jiān)督的無限訓(xùn)練,可以去創(chuàng)造更多更好的合乎人類語言知識的內(nèi)容。但這也同樣意味著要依靠超級昂貴的GPU計算時間、超大規(guī)模GPU機(jī)器學(xué)習(xí)集群、超長的模型訓(xùn)練過程。這意味著這種“燒錢”模式,使得NLP的玩家最終會更加向頭部公司聚集,成為少數(shù)土豪玩家的賽場。
可以預(yù)見,如果今年OpenAI再推出GPT-3.0,大概率還是會選擇單向語言模型,但會采取更大規(guī)模的訓(xùn)練數(shù)據(jù)和擴(kuò)充模型,來與BERT硬剛。NLP應(yīng)用領(lǐng)域的成績也會再次刷新。
但從另一個側(cè)面看到,如此“燒錢”的語言訓(xùn)練模型的研發(fā),尚無清晰的商業(yè)化應(yīng)用前景。OpenAI也不得不面臨著“遵循技術(shù)情懷的初衷”還是“為五斗米折腰”的商業(yè)化的艱難選擇。
答案應(yīng)該已然明了。就在2019年7月,OpenAI接受了微軟的10億美元投資。根據(jù)官方說法,OpenAI將與微軟合作,共同為微軟Azure云平臺開發(fā)新的人工智能技術(shù),并將與微軟達(dá)成一項排他性協(xié)議,進(jìn)一步擴(kuò)展大規(guī)模人工智能能力,“兌現(xiàn)通用人工智能(AGI)的承諾”。
其實質(zhì)正是OpenAI在人工智能研究上的“燒錢”與其商業(yè)化的尷尬,使得它更需要這樣一筆來自微軟的“贊助”。就以擁有15億參數(shù)的GPT-2模型為例,它使用256塊TPU v3訓(xùn)練,每小時都要花費2048美元。可以預(yù)見,如果我們還想期待GPT-3.0的發(fā)布,其費用將主要就花在云端的計算資源上面。
微軟將成為OpenAI獨家云計算供應(yīng)商,OpenAI的人工智能技術(shù)也要通過Azure云輸出。未來,OpenAI將把部分技術(shù)授權(quán)給微軟,然后由微軟把這些技術(shù)商業(yè)化,并將其出售給合作伙伴。
這筆巨額費用的支持,讓OpenAI有了更充足的底氣。如上面所總結(jié)的,GPT-2在8月份后繼續(xù)開始分步驟發(fā)布不同量級的參數(shù)模型,并在11月全部開源。顯然GPT-2未來在商業(yè)化方向上,可以更多的借助微軟Azure的加持。比如可以未來更好的與Office365協(xié)作,參與到辦公協(xié)助的自動化文本寫作當(dāng)中,參與語法錯誤修復(fù),也可以建立更自然真實的問答系統(tǒng)。
曾經(jīng)年少愛追夢,一心只想往前飛。AGI的理想也需要在商業(yè)實踐中照進(jìn)現(xiàn)實??梢灶A(yù)見,2020年,谷歌面對微軟&OpenAI的組合,將給NLP商業(yè)化帶來更多波瀾。
作者:腦極體,微信公眾號:腦極體
本文由 @腦極體 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash, 基于CC0協(xié)議
寫詩寫文章都還只是拼湊而已,我在想一直增加樣本量是根本解決之道嗎,再多樣本出來的還是不能思考的程序