а天堂中文地址在线,欧美性爱免费在线w,97精品国产97久久久久久免费

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

開(kāi)源大模型王座再易主，通義千問(wèn)1100億參數(shù)拿下SOTA，3個(gè)月已推出8款模型

量子位

2024-04-30

0 評(píng)論 600 瀏覽 0 收藏

🔗 B端产品经理需要进行售前演示、方案定制、合同签订等，而C端产品经理需要进行活动策划、内容运营、用户激励等

轟轟烈烈的百模大戰(zhàn)硝煙漸散，當(dāng)人們開(kāi)始討論閉源模型格局初定時(shí)，2024年，不得不說(shuō)開(kāi)源大模型給整個(gè)技術(shù)圈帶來(lái)了不少新的驚喜。

開(kāi)源大模型，已經(jīng)開(kāi)啟大卷特卷模式。

全球范圍，太平洋兩岸，雙雄格局正在呼之欲出。

Llama 3中杯大杯剛驚艷亮相，國(guó)內(nèi)通義千問(wèn)就直接開(kāi)源千億級(jí)參數(shù)模型Qwen1.5-110B，一把火上Hacker News榜首。

不僅相較于自家720億參數(shù)模型性能明顯提升，在MMLU、C-Eval、HumanEval等多個(gè)基準(zhǔn)測(cè)試中，Qwen1.5-110B都重返SOTA開(kāi)源模型寶座，超越Llama 3 70B，成最強(qiáng)開(kāi)源大模型。

中文能力方面，對(duì)比僅喂了5%非英文數(shù)據(jù)的Llama 3 70B，Qwen1.5-110B更是優(yōu)勢(shì)明顯。

于是乎，模型一上線，開(kāi)源社區(qū)已經(jīng)熱烈響應(yīng)起來(lái)。

這不，Qwen1.5-110B推出不到一天，幫助用戶在本地環(huán)境運(yùn)行創(chuàng)建大語(yǔ)言模型的Ollama平臺(tái)，就已火速上線鏈接。

值得關(guān)注的是，這已經(jīng)是3個(gè)月內(nèi)通義千問(wèn)開(kāi)源的第8款大模型。開(kāi)源大模型都在卷些什么？

那么，問(wèn)題來(lái)了，因Llama 3和Qwen1.5接連開(kāi)源而持續(xù)的這波開(kāi)源大模型小熱潮中，開(kāi)源模型又在卷些什么？

如果說(shuō)上一階段由馬斯克Grok和Mixtral所引領(lǐng)的話題熱點(diǎn)是MoE，那網(wǎng)友們這一兩周內(nèi)聚焦的第一關(guān)鍵詞，當(dāng)屬Scaling Laws——尺度定律

OpenAI創(chuàng)始成員、前特斯拉AI總監(jiān)Andrej Karpathy在總結(jié)Llama 3時(shí)，就著重提到過(guò)其中尺度定律的體現(xiàn)：

Llama 2在2T token數(shù)據(jù)上訓(xùn)練，而Llama 3直接加碼到了15T，遠(yuǎn)超Chinchilla推薦量。并且Meta提到，即便如此，模型似乎依然沒(méi)有以標(biāo)準(zhǔn)方式“收斂”。

也就是說(shuō)，“力大磚飛”這事兒還遠(yuǎn)沒(méi)有達(dá)到上限。

無(wú)獨(dú)有偶，Qwen1.5-110B延續(xù)了這個(gè)話題的討論。

官方博客提到，相比于Qwen1.5-72B，此次開(kāi)源的千億參數(shù)模型在預(yù)訓(xùn)練方法上并沒(méi)有太大的改變，但包括編程、數(shù)學(xué)、語(yǔ)言理解、推理在內(nèi)的各項(xiàng)能力提升明顯。

我們認(rèn)為性能提升主要來(lái)自于增加模型規(guī)模。

更強(qiáng)大、更大規(guī)模的基礎(chǔ)語(yǔ)言模型，也帶來(lái)了更好的Chat模型。

阿里的研究人員們指出，Qwen1.5-110B的評(píng)測(cè)成績(jī)意味著，在模型大小擴(kuò)展方面仍有很大的提升空間。

做到这三点挑战，产品经理只会不断升值

好的产品经理是很稀缺的，懂用户、懂商业、懂数据的产品经理走出互联网，依然是抢手货。相反，如果只做简单传话、低效执行、浅层思考的产品经理，恐怕走不过未来3-5年的洪流。

查看详情 >

官方還淺淺劇透了Qwen 2的研究方向：同時(shí)擴(kuò)展訓(xùn)練數(shù)據(jù)和模型大小，雙管齊下。

一、多語(yǔ)言和長(zhǎng)文本能力

尺度定律之外，由閉源模型掀起的長(zhǎng)文本風(fēng)潮，同樣在開(kāi)源模型身上被重點(diǎn)關(guān)注。

Llama 3的8K上下文窗口，就遭到了不少吐槽：實(shí)在有點(diǎn)“古典”。

Qwen1.5-110B在這方面延續(xù)了同系列模型的32K上下文。在此前的測(cè)試中，長(zhǎng)文本能力測(cè)試結(jié)果顯示，即使是Qwen1.5-7B這樣的“小模型”，也能表現(xiàn)出與GPT3.5-turbo-16k類似的性能。

并且，開(kāi)源的優(yōu)勢(shì)就是敢想你就來(lái)。

Qwen1.5官方博客中提到，雖然紙面給的是32K吧，但并不代表模型的上限就到這兒了：

您可以在config.json中，嘗試將max_position_embedding和sliding_window修改為更大的值，觀察模型在更長(zhǎng)上下文理解場(chǎng)景下，是否可以達(dá)到您滿意的效果。

另一個(gè)由通義千問(wèn)而被cue到的大模型能力評(píng)判指標(biāo)，就是多語(yǔ)言能力。

以Qwen1.5-110B為例，該模型支持中文、英文、法語(yǔ)、西班牙語(yǔ)、德語(yǔ)、俄語(yǔ)、韓語(yǔ)、日語(yǔ)、越南語(yǔ)、阿拉伯語(yǔ)等多種語(yǔ)言。

阿里高級(jí)算法專家林俊旸分享過(guò)通義千問(wèn)團(tuán)隊(duì)內(nèi)部收到的反饋：實(shí)際上，多語(yǔ)言能力在全球開(kāi)源社區(qū)中廣受歡迎，正在推動(dòng)大模型在全球各地的落地應(yīng)用。

而Qwen1.5在12個(gè)比較大的語(yǔ)言中，表現(xiàn)都不遜于GPT-3.5。

對(duì)于中文世界而言，這也是國(guó)產(chǎn)開(kāi)源大模型的優(yōu)勢(shì)所在。

畢竟Llama 3強(qiáng)則強(qiáng)矣，訓(xùn)練數(shù)據(jù)方面中文語(yǔ)料占比實(shí)在太少（95%都是英文數(shù)據(jù)），單就中文能力而言，確實(shí)沒(méi)法兒拿來(lái)即用。

相比之下，Qwen1.5 110B的中文實(shí)力就靠譜多了。

能讓歪果仁瞬間抓狂的中文水平測(cè)試，輕松拿捏：

弱智吧Benchmark，也能應(yīng)對(duì)自如：

此外，還有不少網(wǎng)友提到了開(kāi)源模型型號(hào)豐富度的問(wèn)題。

以Qwen1.5為例，推出不到3個(gè)月，已經(jīng)連續(xù)開(kāi)源8款大語(yǔ)言模型，參數(shù)規(guī)模涵蓋5億、18億、40億、70億、140億、320億、720億和1100億，還推出了代碼模型CodeQwen1.5-7B，和混合專家模型Qwen1.5-MoE-A2.7B。

隨著大模型應(yīng)用探索的不斷深入，業(yè)界已經(jīng)逐漸達(dá)成新的共識(shí)：在許多具體的任務(wù)場(chǎng)景中，“小”模型比“大”模型更實(shí)用。

而隨著大模型應(yīng)用向端側(cè)的轉(zhuǎn)移，豐富、全面的不同型號(hào)開(kāi)源模型，無(wú)疑給開(kāi)發(fā)者們帶來(lái)了更多的選擇。

二、“把開(kāi)源進(jìn)行到底”

如同大洋彼岸OpenAI引領(lǐng)閉源模型發(fā)展，而Meta靠開(kāi)放權(quán)重的Llama系列另辟蹊徑，在國(guó)內(nèi)，阿里正是大廠中對(duì)開(kāi)源大模型態(tài)度最積極的一家。

從Qwen到Qwen1.5，再到多模態(tài)的Qwen-VL和Qwen-Audio，通義千問(wèn)自去年以來(lái)可謂開(kāi)源消息不斷。僅Qwen1.5系列，目前累計(jì)已開(kāi)源10款大模型。

阿里官方，也已直接亮明“把開(kāi)源進(jìn)行到底”的態(tài)度。這在卷大模型的互聯(lián)網(wǎng)大廠中，確實(shí)是獨(dú)一份。

所以，阿里堅(jiān)持走開(kāi)源路線，背后的底層邏輯是什么？

或許可以拆解為以下幾個(gè)層面來(lái)分析。

首先，在技術(shù)層面，盡管以GPT系列、Claude系列為代表的閉源模型們目前占據(jù)著領(lǐng)先地位，但開(kāi)源模型也“步步緊逼”，不斷有新進(jìn)展驚艷科技圈。

圖靈獎(jiǎng)得主Yann LeCun就曾援引ARK Invest的數(shù)據(jù)認(rèn)為“開(kāi)源模型正走在超越閉源模型的道路上”。

ARK Invest當(dāng)時(shí)預(yù)測(cè)，在2024年，開(kāi)源模型會(huì)對(duì)閉源模型的商業(yè)模式構(gòu)成挑戰(zhàn)。

而隨著Llama 3為標(biāo)桿的新一波開(kāi)源大模型的爆發(fā)，越來(lái)越多的業(yè)內(nèi)專家也開(kāi)始期待，強(qiáng)大的開(kāi)源模型“會(huì)改變很多學(xué)界研究和初創(chuàng)公司的發(fā)展方式”。

值得一提的是，開(kāi)源模型獨(dú)特的一重優(yōu)勢(shì)在于，來(lái)自開(kāi)源社區(qū)的技術(shù)力量，同時(shí)也反哺了開(kāi)源大模型的發(fā)展。

林俊旸就在量子位AIGC產(chǎn)業(yè)峰會(huì)上分享過(guò)，通義千問(wèn)32B的開(kāi)源，就是在因開(kāi)發(fā)者們的反饋而推動(dòng)的。

其次，在應(yīng)用落地層面，開(kāi)源大模型無(wú)疑起到了加速器的作用。

開(kāi)源社區(qū)的熱情就側(cè)面佐證了開(kāi)發(fā)者們把基礎(chǔ)模型的控制權(quán)把握在自己手中的傾向性。

以通義千問(wèn)為例，在HuggingFace、魔搭社區(qū)的下載量已經(jīng)超過(guò)700萬(wàn)。

更實(shí)際的落地案例，也正在各行各業(yè)中持續(xù)實(shí)現(xiàn)。

比如，中國(guó)科學(xué)院國(guó)家天文臺(tái)人工智能組，就基于通義千問(wèn)開(kāi)源模型，開(kāi)發(fā)了新一代天文大模型“星語(yǔ)3.0”，將大模型首次應(yīng)用于天文觀測(cè)領(lǐng)域。

而對(duì)于推動(dòng)開(kāi)源的企業(yè)而言，打響的也不僅僅是名氣和在開(kāi)發(fā)者社區(qū)中的影響力。

通義千問(wèn)的B端業(yè)務(wù)，也正因開(kāi)源而加速。

最新消息是，通義大模型不僅“上天”，現(xiàn)在還“下礦”了。

繼西部機(jī)場(chǎng)集團(tuán)推出基于阿里云通義大模型打造的首個(gè)航空大模型后，西安塔力科技通過(guò)接入阿里云通義大模型，打造了新型礦山重大風(fēng)險(xiǎn)識(shí)別處置系統(tǒng)，并已在陜煤建新煤礦等十余座礦山上線，這是大模型在礦山場(chǎng)景的首次規(guī)?；涞亍?/p>

目前，新東方、同程旅行、長(zhǎng)安汽車、親寶寶等多家企業(yè)均已宣布介入通義大模型。

轟轟烈烈的百模大戰(zhàn)硝煙漸散，當(dāng)人們開(kāi)始討論閉源模型格局初定時(shí)，2024年，不得不說(shuō)開(kāi)源大模型給整個(gè)技術(shù)圈帶來(lái)了不少新的驚喜。

而隨著大模型應(yīng)用開(kāi)始成為新階段探索的主旋律，站在開(kāi)發(fā)者、初創(chuàng)企業(yè)、更多非互聯(lián)網(wǎng)企業(yè)的角度而言，以Llama、通義千問(wèn)等為代表的開(kāi)源大模型越強(qiáng)，垂直行業(yè)結(jié)合做行業(yè)大模型的自由度就會(huì)越高，落地速度也會(huì)越快。

過(guò)去互聯(lián)網(wǎng)的繁榮建立在開(kāi)源的基礎(chǔ)之上，而現(xiàn)在，在大模型風(fēng)暴中，開(kāi)源大模型再次顯現(xiàn)出鯰魚(yú)效應(yīng)。

自研大模型的必要性和競(jìng)爭(zhēng)力，正在不斷被開(kāi)源卷王們卷沒(méi)了。

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】，微信公眾號(hào)：【量子位】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

量子位

追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

74篇作品 198655總閱讀量

在線旅游變局：新老玩家的攻與防、危與機(jī)

04-142438 瀏覽

"="" class="meta">07-253157 瀏覽

"="" class="meta">

"="" class="meta"> "="" src="https://image.woshipm.com/2023/05/06/cf454f46-ec01-11ed-adbb-00163e0b5ff3.jpg!/both/120x80" alt="混亂、流浪、生根、畫(huà)手“入?！蔽⒉┍澈?>

="" data-id="12">

"="" src="https://image.woshipm.com/2023/05/06/cf454f46-ec01-11ed-adbb-00163e0b5ff3.jpg!/both/120x80" alt="混亂、流浪、生根、畫(huà)手“入?！蔽⒉┍澈?>

="" data-id="12">

"="" src="https://image.woshipm.com/2023/05/06/cf454f46-ec01-11ed-adbb-00163e0b5ff3.jpg!/both/120x80" alt="混亂、流浪、生根、畫(huà)手“入?！蔽⒉┍澈?>

="" data-id="12">

"="" src="https://image.woshipm.com/2023/05/06/cf454f46-ec01-11ed-adbb-00163e0b5ff3.jpg!/both/120x80" alt="混亂、流浪、生根、畫(huà)手“入?！蔽⒉┍澈?>

="" data-id="12">

"="" src="https://image.woshipm.com/2023/05/06/cf454f46-ec01-11ed-adbb-00163e0b5ff3.jpg!/both/120x80" alt="混亂、流浪、生根、畫(huà)手“入?！蔽⒉┍澈?>

="" data-id="12">"="" class="meta">01-033080 瀏覽

"="" class="meta">

"="" class="meta"> "="" src="https://image.woshipm.com/wp-files/2023/01/j8cvdpXwNG1pCz3vd0LW.jpg!/both/120x80" alt="當(dāng)我們談?wù)撍接驎r(shí)，到底在談?wù)撌裁矗?>

="">

"="" src="https://image.woshipm.com/wp-files/2023/01/j8cvdpXwNG1pCz3vd0LW.jpg!/both/120x80" alt="當(dāng)我們談?wù)撍接驎r(shí)，到底在談?wù)撌裁矗?>

="">

"="" src="https://image.woshipm.com/wp-files/2023/01/j8cvdpXwNG1pCz3vd0LW.jpg!/both/120x80" alt="當(dāng)我們談?wù)撍接驎r(shí)，到底在談?wù)撌裁矗?>

="">抖音天貓美團(tuán)鏖戰(zhàn)，近場(chǎng)零售有了更多可能？

02-283205 瀏覽

開(kāi)源大模型王座再易主，通義千問(wèn)1100億參數(shù)拿下SOTA，3個(gè)月已推出8款模型

一、多語(yǔ)言和長(zhǎng)文本能力

二、“把開(kāi)源進(jìn)行到底”

開(kāi)源大模型王座再易主，通義千問(wèn)1100億參數(shù)拿下SOTA，3個(gè)月已推出8款模型

二、“把開(kāi)源進(jìn)行到底”