體驗(yàn)Meta的Llama 4,就也還行?
從支持1000萬token上下文的Scout,到4000億參數(shù)的Maverick,再到2萬億參數(shù)的Behemoth,Llama 4憑借MoE架構(gòu)、多模態(tài)能力和超低成本推理,展現(xiàn)了強(qiáng)大的技術(shù)潛力。然而,實(shí)際體驗(yàn)中,它在文本處理和創(chuàng)造性任務(wù)中表現(xiàn)出色,但在專業(yè)知識和交互細(xì)節(jié)上仍有不足。
昨天(4月6日凌晨),Meta發(fā)布了Llama 4的消息,估計你也聽說了。要是你想了解更多,可以去這兩個網(wǎng)址看看:
- 官方介紹頁面:https://ai.meta.com/meta-ai
- 官網(wǎng)地址:https://www.meta.ai
登錄后,Chatbot的頁面特別簡單,一打開就能免費(fèi)試用。左邊有個小菜單,三個選項(xiàng):對話框、收藏,還有Meta畫畫。
這次Meta推出了三個不同版本的Llama 4。
第一個叫Llama 4 Scout(偵察兵),它有170億個活躍參數(shù),就像它手上有170億個小工具可以隨時用。它還有16個專家模型幫忙,總參數(shù)量加起來有1090億。
這個版本適合做輕量級的任務(wù),比如:總結(jié)文檔、處理代碼庫之類的推理任務(wù)。能支持1000萬字的上下文。
第二個版本叫Llama 4 Maverick,有點(diǎn)像“特立獨(dú)行”的意思;它同樣有170億參數(shù),但專家模型增加到了128個,總參數(shù)量達(dá)到4000億;場景適合多模態(tài),像文檔、圖標(biāo)、PDF等。
目前我看到介紹,它在很多基礎(chǔ)測試?yán)锉憩F(xiàn)特別好,超過了GPT-4o和Gemini 2.0 Flash,在推理和編碼任務(wù)上和DeepSeek v3差不多厲害。
最厲害的是第三個版本,叫Llama 4 Behemoth(巨獸)。官方說,它的總參數(shù)接近2萬億,活躍參數(shù)有2880億。不過,這個版本還沒正式發(fā)布,它主要是當(dāng)“老師”,用自己的知識教Scout和Maverick。
很多人可能不太明白“活躍參數(shù)”是什么。我打個比方:
一個超級大廚(模型)有很多很多工具和技巧(總參數(shù)量),但做飯的時候,他只會用到其中一部分(活躍參數(shù))。
活躍參數(shù)越多,廚師能用的工具和技巧就越多,做出來的菜(也就是任務(wù)效果)可能就越好吃(厲害)。
面對這三個版本,說實(shí)話,我都覺得太厲害,完全無法想象它的強(qiáng)大。尤其是2萬億參數(shù)的版本,似乎吞掉了整個世界的知識,消化掉了人類文明的精髓。
既然這樣,問題來了:
吹的這么大,到底該如何評價它的性能呢?是遙遙領(lǐng)先,還是一騎絕塵?說實(shí)話,我都已經(jīng)沒有概念了。
不過,我直接問Llama 4:針對一個這么大的模型,該問什么問題,才能感受到它的厲害呢?
它告訴我,可以試試多步驟推理、自然語言理解問題、創(chuàng)造性寫作、多語言翻譯,或者對某個領(lǐng)域的知識進(jìn)行解析;從這些角度提問,能更好地感受到Llama 4的強(qiáng)大之處。
索性從多步驟推理開始。我問的第一個問題:
假設(shè)你有100元,想用這些錢買一種商品。這種商品每件3元,但商家有個優(yōu)惠活動:如果你一次性買超過10件,每件可以便宜1元。那我最多能買多少件呢?請快速推理并給出答案。
它不到2秒就給出了答案。我用Kimi、DeepSeek、Qwen分別測試了這個問題,結(jié)果也都差不多。毫無疑問,這種問題對模型來說太簡單了,簡直小菜一碟。
那怎么辦呢?
我向Qwen咨詢了一個問題,我對Qwen2.5-Max說:請給我一個超難的問題,來測試Llama 4的多步驟推理,越難越好。
經(jīng)過一番思考,Qwen給出了一道題目,并解釋說,這道題的關(guān)鍵在于“短小精悍”,同時要覆蓋多語言翻譯、事實(shí)核查和語義分析這三項(xiàng)能力。
它還提到,這道題符合知識庫中的評測維度,比如翻譯技巧和幻覺檢測。問題是這樣的:請閱讀以下句子,并完成以下任務(wù): 一,將句子翻譯成法語,保留原意; 二,指出句子中可能被夸大的部分,并解釋原因。
句子如下:
盡管人工智能在醫(yī)療、金融等領(lǐng)域被稱為革命性力量,但其通過節(jié)能算法緩解氣候變化的效果仍存在爭議。
結(jié)果來看,Kimi回答比Llama 4更詳細(xì)。Kimi指出兩個可能被夸大的地方:一是“革命性力量”,二是“仍存在爭議”。而Llama 4只指出了其中一個。
圖示:左KIMI,右Llama 4
接下來,我體驗(yàn)了一個自然語言理解的難題。Qwen說,這個問題看起來很簡單,其實(shí)里面藏著很深的難度。
它不僅要識別“相關(guān)性≠因果性”的謬誤,還要補(bǔ)充隱含條件,考驗(yàn)邏輯重構(gòu)能力。我把任務(wù)交給Llama 4:請分析以下中文句子的邏輯漏洞,并用英語改寫句子,讓它更嚴(yán)謹(jǐn)。
句子是:
“所有成功企業(yè)家都早起,因此如果你想創(chuàng)業(yè)成功,必須每天五點(diǎn)起床。”
對比Kimi和Llama 4的答案,我認(rèn)為Llama 4的回答更簡潔,但Kimi的表達(dá)更詳細(xì)、更清晰。
然后,我研究了一道“領(lǐng)域知識”。問題是:設(shè)計一個基于AI的商品智能推薦系統(tǒng)的測試方案。
我讓Llama 4先分析問題,再給出答案。它說,主要存在三個測試難點(diǎn)。不過,它給的答案和Kimi給的答案我都不太滿意,主要問題是:
答案太宏觀、太理論化,雖然也有舉例,但都沒具體說清楚“到底該怎么做”??赡芤?yàn)槲抑疤岢龅膯栴}不夠詳細(xì)。
這也給我一個提醒:雖然網(wǎng)上有海量公開資料,但遇到行業(yè)知識或者具體問題時,AI在個人經(jīng)驗(yàn)方面還是差了點(diǎn)火候。
最后,我試了試創(chuàng)造性寫作,感覺特別有意思。
題目是寫一個微小說,里面要包含“鑰匙”“雨夜”“陌生人”這三個元素,還得分析用到的文學(xué)技巧。
Llama 4給出了好幾個版本,創(chuàng)造力和理解力都很強(qiáng)。相比之下,Kimi只寫了一個版本,感覺Llama 4在處理復(fù)雜任務(wù)時更有優(yōu)勢,能給出更多元化的回答。
我覺得,以后可以用這個功能寫更多好玩的段子,確實(shí)是一件很有趣的事情。
我還試了它的文生圖能力。
隨便說了一句“幫我換輪胎”,它居然生成了四張不同的圖,每張都不一樣。其中第四張看起來像在森林里換輪胎,感覺挺真實(shí)的。
我可以點(diǎn)進(jìn)去繼續(xù)修改,只要告訴它我的想法就行。上傳照片換背景圖,也可以。不過,修改效果不太理想,不如ChatGPT 4o。
經(jīng)過這一系列體驗(yàn),所以,我得出什么結(jié)論呢?
Llama 4的文本處理能力很強(qiáng)。會理解上下文的意思,回答問題時,能給出很準(zhǔn)確、很貼切的答案。特別是碰到復(fù)雜的問題,或者要仔細(xì)琢磨的任務(wù),它表現(xiàn)得特別好。
比如,我讓它幫我做一個測試,根據(jù)一段文本理解人類的情感,把這種情感用到別的地方,它都能搞定。
語言生成能力也很棒,寫出來的文本很流暢、很自然。有時,它還能模仿某種特定的寫作風(fēng)格或者語氣;還有一個優(yōu)點(diǎn),多輪對話能力很強(qiáng)。不管后面給它什么內(nèi)容,前面的內(nèi)容它都不會忘。
不過,也有不足的地方。
在一些專業(yè)知識上,還不夠深入、不夠具體。但有個好處,它能帶著我一起完成任務(wù);我有個問題自己解決不了,交給它,它就能分步驟帶著我一起做,最后把任務(wù)完成。
在交互方面,它也很厲害。
從普通的文字聊天,到生成圖片,再到上傳文件讓它幫忙修改,這些都能在一個聊天框里搞定。甚至還能基于圖片制作動畫,功能很全面。不過,它沒有語音功能,也不能聯(lián)網(wǎng)搜索,這有點(diǎn)不太方便。
但是,雖然它能進(jìn)行多種交互,但有時候也會出錯。
我給它一個PDF文件,讓它把里面的內(nèi)容提取出來做成表格,結(jié)果它卻生成了一個圖標(biāo)。這種理解上的偏差還挺讓人頭疼的。
可能它在開源市場更有潛力吧,感興趣,可以試試。
本文由人人都是產(chǎn)品經(jīng)理作者【王智遠(yuǎn)】,微信公眾號:【王智遠(yuǎn)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!