開源大模型王座再易主,通義千問1100億參數(shù)拿下SOTA,3個(gè)月已推出8款模型
轟轟烈烈的百模大戰(zhàn)硝煙漸散,當(dāng)人們開始討論閉源模型格局初定時(shí),2024年,不得不說開源大模型給整個(gè)技術(shù)圈帶來了不少新的驚喜。
開源大模型,已經(jīng)開啟大卷特卷模式。
全球范圍,太平洋兩岸,雙雄格局正在呼之欲出。
Llama 3中杯大杯剛驚艷亮相,國(guó)內(nèi)通義千問就直接開源千億級(jí)參數(shù)模型Qwen1.5-110B,一把火上Hacker News榜首。
不僅相較于自家720億參數(shù)模型性能明顯提升,在MMLU、C-Eval、HumanEval等多個(gè)基準(zhǔn)測(cè)試中,Qwen1.5-110B都重返SOTA開源模型寶座,超越Llama 3 70B,成最強(qiáng)開源大模型。
中文能力方面,對(duì)比僅喂了5%非英文數(shù)據(jù)的Llama 3 70B,Qwen1.5-110B更是優(yōu)勢(shì)明顯。
于是乎,模型一上線,開源社區(qū)已經(jīng)熱烈響應(yīng)起來。
這不,Qwen1.5-110B推出不到一天,幫助用戶在本地環(huán)境運(yùn)行創(chuàng)建大語言模型的Ollama平臺(tái),就已火速上線鏈接。
值得關(guān)注的是,這已經(jīng)是3個(gè)月內(nèi)通義千問開源的第8款大模型。開源大模型都在卷些什么?
那么,問題來了,因Llama 3和Qwen1.5接連開源而持續(xù)的這波開源大模型小熱潮中,開源模型又在卷些什么?
如果說上一階段由馬斯克Grok和Mixtral所引領(lǐng)的話題熱點(diǎn)是MoE,那網(wǎng)友們這一兩周內(nèi)聚焦的第一關(guān)鍵詞,當(dāng)屬Scaling Laws——尺度定律
OpenAI創(chuàng)始成員、前特斯拉AI總監(jiān)Andrej Karpathy在總結(jié)Llama 3時(shí),就著重提到過其中尺度定律的體現(xiàn):
Llama 2在2T token數(shù)據(jù)上訓(xùn)練,而Llama 3直接加碼到了15T,遠(yuǎn)超Chinchilla推薦量。并且Meta提到,即便如此,模型似乎依然沒有以標(biāo)準(zhǔn)方式“收斂”。
也就是說,“力大磚飛”這事兒還遠(yuǎn)沒有達(dá)到上限。
無獨(dú)有偶,Qwen1.5-110B延續(xù)了這個(gè)話題的討論。
官方博客提到,相比于Qwen1.5-72B,此次開源的千億參數(shù)模型在預(yù)訓(xùn)練方法上并沒有太大的改變,但包括編程、數(shù)學(xué)、語言理解、推理在內(nèi)的各項(xiàng)能力提升明顯。
我們認(rèn)為性能提升主要來自于增加模型規(guī)模。
更強(qiáng)大、更大規(guī)模的基礎(chǔ)語言模型,也帶來了更好的Chat模型。
阿里的研究人員們指出,Qwen1.5-110B的評(píng)測(cè)成績(jī)意味著,在模型大小擴(kuò)展方面仍有很大的提升空間。
官方還淺淺劇透了Qwen 2的研究方向:同時(shí)擴(kuò)展訓(xùn)練數(shù)據(jù)和模型大小,雙管齊下。
一、多語言和長(zhǎng)文本能力
尺度定律之外,由閉源模型掀起的長(zhǎng)文本風(fēng)潮,同樣在開源模型身上被重點(diǎn)關(guān)注。
Llama 3的8K上下文窗口,就遭到了不少吐槽:實(shí)在有點(diǎn)“古典”。
Qwen1.5-110B在這方面延續(xù)了同系列模型的32K上下文。在此前的測(cè)試中,長(zhǎng)文本能力測(cè)試結(jié)果顯示,即使是Qwen1.5-7B這樣的“小模型”,也能表現(xiàn)出與GPT3.5-turbo-16k類似的性能。
并且,開源的優(yōu)勢(shì)就是敢想你就來。
Qwen1.5官方博客中提到,雖然紙面給的是32K吧,但并不代表模型的上限就到這兒了:
您可以在config.json中,嘗試將max_position_embedding和sliding_window修改為更大的值,觀察模型在更長(zhǎng)上下文理解場(chǎng)景下,是否可以達(dá)到您滿意的效果。
另一個(gè)由通義千問而被cue到的大模型能力評(píng)判指標(biāo),就是多語言能力。
以Qwen1.5-110B為例,該模型支持中文、英文、法語、西班牙語、德語、俄語、韓語、日語、越南語、阿拉伯語等多種語言。
阿里高級(jí)算法專家林俊旸分享過通義千問團(tuán)隊(duì)內(nèi)部收到的反饋:實(shí)際上,多語言能力在全球開源社區(qū)中廣受歡迎,正在推動(dòng)大模型在全球各地的落地應(yīng)用。
而Qwen1.5在12個(gè)比較大的語言中,表現(xiàn)都不遜于GPT-3.5。
對(duì)于中文世界而言,這也是國(guó)產(chǎn)開源大模型的優(yōu)勢(shì)所在。
畢竟Llama 3強(qiáng)則強(qiáng)矣,訓(xùn)練數(shù)據(jù)方面中文語料占比實(shí)在太少(95%都是英文數(shù)據(jù)),單就中文能力而言,確實(shí)沒法兒拿來即用。
相比之下,Qwen1.5 110B的中文實(shí)力就靠譜多了。
能讓歪果仁瞬間抓狂的中文水平測(cè)試,輕松拿捏:
弱智吧Benchmark,也能應(yīng)對(duì)自如:
此外,還有不少網(wǎng)友提到了開源模型型號(hào)豐富度的問題。
以Qwen1.5為例,推出不到3個(gè)月,已經(jīng)連續(xù)開源8款大語言模型,參數(shù)規(guī)模涵蓋5億、18億、40億、70億、140億、320億、720億和1100億,還推出了代碼模型CodeQwen1.5-7B,和混合專家模型Qwen1.5-MoE-A2.7B。
隨著大模型應(yīng)用探索的不斷深入,業(yè)界已經(jīng)逐漸達(dá)成新的共識(shí):在許多具體的任務(wù)場(chǎng)景中,“小”模型比“大”模型更實(shí)用。
而隨著大模型應(yīng)用向端側(cè)的轉(zhuǎn)移,豐富、全面的不同型號(hào)開源模型,無疑給開發(fā)者們帶來了更多的選擇。
二、“把開源進(jìn)行到底”
如同大洋彼岸OpenAI引領(lǐng)閉源模型發(fā)展,而Meta靠開放權(quán)重的Llama系列另辟蹊徑,在國(guó)內(nèi),阿里正是大廠中對(duì)開源大模型態(tài)度最積極的一家。
從Qwen到Qwen1.5,再到多模態(tài)的Qwen-VL和Qwen-Audio,通義千問自去年以來可謂開源消息不斷。僅Qwen1.5系列,目前累計(jì)已開源10款大模型。
阿里官方,也已直接亮明“把開源進(jìn)行到底”的態(tài)度。這在卷大模型的互聯(lián)網(wǎng)大廠中,確實(shí)是獨(dú)一份。
所以,阿里堅(jiān)持走開源路線,背后的底層邏輯是什么?
或許可以拆解為以下幾個(gè)層面來分析。
首先,在技術(shù)層面,盡管以GPT系列、Claude系列為代表的閉源模型們目前占據(jù)著領(lǐng)先地位,但開源模型也“步步緊逼”,不斷有新進(jìn)展驚艷科技圈。
圖靈獎(jiǎng)得主Yann LeCun就曾援引ARK Invest的數(shù)據(jù)認(rèn)為“開源模型正走在超越閉源模型的道路上”。
ARK Invest當(dāng)時(shí)預(yù)測(cè),在2024年,開源模型會(huì)對(duì)閉源模型的商業(yè)模式構(gòu)成挑戰(zhàn)。
而隨著Llama 3為標(biāo)桿的新一波開源大模型的爆發(fā),越來越多的業(yè)內(nèi)專家也開始期待,強(qiáng)大的開源模型“會(huì)改變很多學(xué)界研究和初創(chuàng)公司的發(fā)展方式”。
值得一提的是,開源模型獨(dú)特的一重優(yōu)勢(shì)在于,來自開源社區(qū)的技術(shù)力量,同時(shí)也反哺了開源大模型的發(fā)展。
林俊旸就在量子位AIGC產(chǎn)業(yè)峰會(huì)上分享過,通義千問32B的開源,就是在因開發(fā)者們的反饋而推動(dòng)的。
其次,在應(yīng)用落地層面,開源大模型無疑起到了加速器的作用。
開源社區(qū)的熱情就側(cè)面佐證了開發(fā)者們把基礎(chǔ)模型的控制權(quán)把握在自己手中的傾向性。
以通義千問為例,在HuggingFace、魔搭社區(qū)的下載量已經(jīng)超過700萬。
更實(shí)際的落地案例,也正在各行各業(yè)中持續(xù)實(shí)現(xiàn)。
比如,中國(guó)科學(xué)院國(guó)家天文臺(tái)人工智能組,就基于通義千問開源模型,開發(fā)了新一代天文大模型“星語3.0”,將大模型首次應(yīng)用于天文觀測(cè)領(lǐng)域。
而對(duì)于推動(dòng)開源的企業(yè)而言,打響的也不僅僅是名氣和在開發(fā)者社區(qū)中的影響力。
通義千問的B端業(yè)務(wù),也正因開源而加速。
最新消息是,通義大模型不僅“上天”,現(xiàn)在還“下礦”了。
繼西部機(jī)場(chǎng)集團(tuán)推出基于阿里云通義大模型打造的首個(gè)航空大模型后,西安塔力科技通過接入阿里云通義大模型,打造了新型礦山重大風(fēng)險(xiǎn)識(shí)別處置系統(tǒng),并已在陜煤建新煤礦等十余座礦山上線,這是大模型在礦山場(chǎng)景的首次規(guī)?;涞?。
目前,新東方、同程旅行、長(zhǎng)安汽車、親寶寶等多家企業(yè)均已宣布介入通義大模型。
轟轟烈烈的百模大戰(zhàn)硝煙漸散,當(dāng)人們開始討論閉源模型格局初定時(shí),2024年,不得不說開源大模型給整個(gè)技術(shù)圈帶來了不少新的驚喜。
而隨著大模型應(yīng)用開始成為新階段探索的主旋律,站在開發(fā)者、初創(chuàng)企業(yè)、更多非互聯(lián)網(wǎng)企業(yè)的角度而言,以Llama、通義千問等為代表的開源大模型越強(qiáng),垂直行業(yè)結(jié)合做行業(yè)大模型的自由度就會(huì)越高,落地速度也會(huì)越快。
過去互聯(lián)網(wǎng)的繁榮建立在開源的基礎(chǔ)之上,而現(xiàn)在,在大模型風(fēng)暴中,開源大模型再次顯現(xiàn)出鯰魚效應(yīng)。
自研大模型的必要性和競(jìng)爭(zhēng)力,正在不斷被開源卷王們卷沒了。
本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號(hào):【量子位】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!