反思國產(chǎn)大模型:如果泡沫不可避免,我們該如何面對這場革命?
國產(chǎn)大模型與GPT這類先進的大模型之間,到底存在著怎樣的發(fā)展區(qū)別呢?本篇文章具體分析國產(chǎn)大模型發(fā)展受限的原因,以及其面臨的一些考驗,希望能對你有一定的參考幫助。
縱觀人類的科技發(fā)展史,都由泡沫中的幸存者來繼續(xù)推動的。即使人類本身,也是物種大爆發(fā)這場生物泡沫的幸運兒。
最近,F(xiàn)acebook早期投資者Roger McNamee在CNBC上批評人們對AI的狂熱,是“忘掉了過去科技泡沫帶來的痛”。
同樣的,在國內(nèi),面對越來越多的大模型,部分頭腦冷靜的人士,也顯示出自己的擔(dān)憂。
“這么多的大模型,真正有自己技術(shù)的有幾個”?
“有幾家公司能持續(xù)投入下去”?
更有頭部VC機構(gòu)人士認為,經(jīng)過他們的私下測試和摸底,幾乎國內(nèi)所有的大模型,都是PR項目…
眾所周知,大模型的訓(xùn)練是一個成本極高的過程,需要大量的算力和資金支持。
以O(shè)penAI為例,GPT-3的單次訓(xùn)練成本就高達140萬美元,對于一些更大的大模型,訓(xùn)練成本介于200萬美元至1200萬美元之間。
用知名計算機專家吳軍的話來形容,ChatGPT每訓(xùn)練一次,相當(dāng)于報廢了3000輛特斯拉汽車。
這個數(shù)字告訴人們:要想打造有競爭力的大模型,不下血本是不行的。
某些體量、資金不足,卻仍舊叫囂著要“對標(biāo)ChatGPT”的企業(yè),其本身的實力,難免讓人產(chǎn)生懷疑。
例如某個在發(fā)布大模型后,自身股價最高暴漲338%的國內(nèi)公司(此處就不點名了),其賬上的貨幣資金不過13億元。
然而,以ChatGPT的訓(xùn)練成本為例,要想背后的智能算力集群,僅GPU顯卡采購成本就超過了10億元。國內(nèi)目前能夠支撐起類似基礎(chǔ)設(shè)施的企業(yè)不超過3家。
也正因如此,在這場表面熱鬧的大模型競賽中,注定有一大票公司,都只是打著大模型的名號,來實現(xiàn)自身利益的“陪跑者”罷了……
不過縱觀人類的科技發(fā)展史,都由泡沫中的幸存者來繼續(xù)推動的。即使人類本身,也是物種大爆發(fā)這場生物泡沫的幸運兒。如果泡沫無法避免,從業(yè)者真正需要的是面對泡沫時的冷靜和定力。
一、數(shù)據(jù)孤島
國產(chǎn)大模型能否達到或超越GPT這類先進模型的水平,有兩個較為主要的因素:
- 在數(shù)據(jù)集的獲取上,如何不斷積累足夠多、且高質(zhì)量的數(shù)據(jù)集;
- 在煉制大模型的“工藝”上,如何不斷探索和突破,找到新的理論和方法。
先說第一點。
目前,在大模型的訓(xùn)練上,用來訓(xùn)練的主流數(shù)據(jù)集以英文為主,中文數(shù)據(jù)只占據(jù)4.8%。
之前清華計算機系教授唐杰,在對千億模型ChatGLM-130B訓(xùn)練前數(shù)據(jù)準(zhǔn)備時,就曾面臨過清洗中文數(shù)據(jù)后,可用量不到2TB的情況。
這就是國內(nèi)所有做大模型的團隊不得不面對的慘烈現(xiàn)狀。
為解決這個問題,許多國內(nèi)團隊,都開始通過“眾志成城”的方式,開源自身的中文數(shù)據(jù)集,以希望彌補高質(zhì)量中文數(shù)據(jù)集的不足。
但是,這種通過各個團隊“自覺”開源的方式,仍然存在著一定局限性,那就是:由于數(shù)據(jù)的敏感性、隱私性和所有權(quán)等問題,很多行業(yè)和領(lǐng)域的數(shù)據(jù)并不容易獲得或共享。
國內(nèi)數(shù)據(jù)大量儲存于移動端APP中,于訓(xùn)練大模型而言比較難于抓取。
同時國內(nèi)互聯(lián)網(wǎng)巨頭之間的數(shù)據(jù)相互封閉,數(shù)據(jù)孤島化情況嚴重。
例如百度的內(nèi)容生態(tài)數(shù)據(jù),騰訊的公眾號數(shù)據(jù),阿里的電商和物流數(shù),這些屬于各大企業(yè)的私有數(shù)據(jù)。雖然都在各自的行業(yè)和場景,積累了外人所不能及的優(yōu)勢,但由其所有權(quán)和隱私性的問題,導(dǎo)致很難與外界進行共享。
而這些不容易獲取的數(shù)據(jù),往往無法依賴各團隊的“自愿”和“主動”進行開源。
針對這一問題,走在前列的美國AI產(chǎn)業(yè),早已通過更成熟的數(shù)據(jù)共享平臺、數(shù)據(jù)交易市場、數(shù)據(jù)信托等機制,促進了數(shù)據(jù)的流通和價值發(fā)現(xiàn)。
具體來說,在這些數(shù)據(jù)交易平臺中,第三方數(shù)據(jù)擁有者可以將原始數(shù)據(jù)掛到數(shù)據(jù)交易市場上公開出售,數(shù)據(jù)需求方按照約定價格(買斷數(shù)據(jù)/按小時計費、平臺會員費)購買后,可以在數(shù)據(jù)交易平臺上獲得離線的數(shù)據(jù)包或者實時API。
若最終成功交易,平臺收取一定傭金后返還銷售收入給第三方數(shù)據(jù)擁有者。這類型數(shù)據(jù)交易平臺代表有RapidAPI、Streamr等。
與之相比,國內(nèi)大數(shù)據(jù)交易仍處于起步階段,數(shù)據(jù)交易主要以單純的原始數(shù)據(jù)“粗加工”交易為主。且數(shù)據(jù)供需不對稱,使得數(shù)據(jù)交易難以滿足社會有效需求,數(shù)據(jù)成交率和成交額不高。
此外,在數(shù)據(jù)交易過程中,國內(nèi)市場也缺乏全國統(tǒng)一的規(guī)范體系和必要的法律保障,無法有效破解數(shù)據(jù)定價、數(shù)據(jù)確權(quán)等難題。
從長遠來看,國內(nèi)大模型要想在數(shù)據(jù)的數(shù)量、質(zhì)量上進一步得到提升,就不能單單只靠部分團隊“自愿”和“主動”的開源,而要在法律、市場機制等方面,做出更多與時俱進的改革。如此方能促進各個行業(yè)間數(shù)據(jù)的廣泛共享。
二、“工藝”的差距
除了數(shù)據(jù)集的數(shù)量、質(zhì)量外,另一個決定大模型能力強弱的關(guān)鍵因素,就是煉制大模型的“工藝”。
前段時間,復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點實驗室主任肖仰華就表示:與國際同行相比,模型、數(shù)據(jù)和算力并不是中國最大的劣勢,真正的短板在于對大模型“煉制”工藝的掌握,包括數(shù)據(jù)配方、數(shù)據(jù)清洗和參數(shù)設(shè)置等等。
現(xiàn)在有些國內(nèi)大模型,動輒就對外號稱“百億”、“千億”規(guī)模,仿佛參數(shù)量越大,模型性能就愈強。
然而,空有龐大的規(guī)模,卻缺乏先進的“工藝”,這就像一個腦容量頗大,但卻掌握不到學(xué)習(xí)要領(lǐng)的學(xué)生,難以在學(xué)習(xí)能力上進一步“精進”。
具體來說,如果將煉制大模型的過程,類比成一座工廠中的流水線。那么數(shù)據(jù)配方就像在開始生產(chǎn)之前選擇原材料一樣,需要選擇不同的數(shù)據(jù)集,確定不同領(lǐng)域、不同類型、不同模態(tài)數(shù)據(jù)的配比。
而數(shù)據(jù)清洗就像對原材料的加工一樣,對原始語料進行去噪、去重、過濾、規(guī)范化等操作,提取有用的信息;
參數(shù)設(shè)置就像生產(chǎn)過程中的調(diào)整和優(yōu)化一樣,通過選擇合適的超參數(shù),如學(xué)習(xí)率、批次大小等,以達到最佳的效果。
雖然上述的每一個具體步驟,國內(nèi)其實都知道怎么做,但是將它們整合在一起,總體效果和國外是存在差距的。
這雖然不是0和1的區(qū)別,但卻是50分和100分的區(qū)別。
所以,大模型的研制與開發(fā),終歸是一個易學(xué)難精的過程。而要想進一步提升這樣的工藝,就必須在人工智能的基礎(chǔ)理論、工程實踐以及創(chuàng)新思維上不斷積累,從而實現(xiàn)在關(guān)鍵環(huán)節(jié)上的突破和領(lǐng)先。
可問題是,這些反復(fù)試錯、探索的過程,往往是一個需要消耗大量時間、資源,且并沒有實際產(chǎn)出與盈利的過程。
即便是創(chuàng)造了ChatGPT的OpenAI,目前也處于嚴重虧損的狀態(tài)(其去年的虧損已達5.4億美元)。
這對于國內(nèi)許多急功近利的企業(yè)而言,無疑是一個重大的考驗。
因為國內(nèi)巨頭們對技術(shù)性風(fēng)口的追逐和熱愛,不堅定,也缺乏耐心。
舉例來說,全民造芯運動中,在2017年,資本對半導(dǎo)體的狂熱達到了一個頂端,創(chuàng)下至今最高歷史記錄,單筆平均融資達到 8億元。
然而,一旦察覺某類技術(shù)的研發(fā),是一場漫長且難見收益的過程,某些企業(yè)的“浮躁”與“搖擺”就會逐漸顯現(xiàn)。
2020年,武漢弘芯半導(dǎo)體,號稱千億投資,臺積電技術(shù)大牛執(zhí)掌。但成立僅僅三年,就被曝出項目欠薪停擺。武漢弘芯將大陸唯一一臺,價值5億多元,能夠生產(chǎn)7nm芯片的光刻機,拿去銀行抵押續(xù)命。
由此可見,國內(nèi)外大模型的競爭,表面上看,是數(shù)據(jù)集多寡、質(zhì)量高低的競爭;稍微深入了看,是大模型工藝的比拼;而再深入到底層,就變成了不同的商業(yè)文化,乃至生態(tài)的綜合競爭了。
作者:舉大名耳
來源公眾號:AI新智能
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @AI新智能 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!