谷歌祭出多模態(tài)“殺器”,Gemini真能碾壓GPT-4嗎?

0 評論 1120 瀏覽 1 收藏 14 分鐘

最近,谷歌發(fā)布了多模態(tài)大模型Gemini,甚至被谷歌以“能力最強”對外推出。那么,Gemini是否真的強于OpenAI的GPT-4?本文作者實測了Bard——已植入了精調的Gemini Pro模型——的數(shù)學能力,不妨一起來看看作者的分析和測評結果。

“最大”、最有能力”、“最佳”、“最高效”,谷歌為其12月7日新發(fā)布的多模態(tài)大模型Gemini冠上了好幾個“最”,與OpenAI GPT-4“比高高”的勝負欲呼之欲出。

區(qū)分為Ultra、Pro、Nano三個尺寸的Gemini,不僅號稱在各種“AI考試”中得了“高分”,演示視頻里顯示的Gemini簡直就是“聽說讀寫”樣樣拿的“超級工具”。

按照官方說法,Gemini Ultra最為強大,兼具多模態(tài)能力、專業(yè)性與準確度,能以圖文、語音的形式輸入輸出不說,具體還能批改數(shù)學作業(yè),指導運動員的動作與發(fā)力,還能夠執(zhí)行復雜的繪制圖表、編碼等任務,在MMLU(大規(guī)模多任務語言理解)測試里甚至“超越了人類專家”。

不過,目前能供C端普通用戶體驗的是Gemini Pro版,按官方定位是“在各種任務上擴展的最佳模型”,已集成至谷歌此前發(fā)布的對話機器人Bard中;“在設備上執(zhí)行任務的最高效模型”Gemini Nano將置入谷歌智能手機Pixel8 Pro;而“最大且最有能力,適用于高度復雜任務”的Gemini Ultra,谷歌的計劃是在明年年初開放給開發(fā)者和企業(yè)用戶。

那么,Gemini真的比GPT-4強嗎?

有網(wǎng)友發(fā)現(xiàn),谷歌給出的Gemini Ultra“考試成績”用的是自家的“試卷”(測試方法);而彭博社指出,Gemini的演示視頻非實時,網(wǎng)友們也覺得該視頻有剪輯痕跡。

《元宇宙日爆》實測了Bard的數(shù)學能力,該對話機器人已植入了精調的Gemini Pro模型,結果顯示,Bard對復雜的數(shù)學題仍有理解錯誤,尤其是識圖方面。

一、谷歌展示Gemini“聽說讀寫”能力

Gemini是谷歌從頭構建的多模態(tài)人工智能大模型。盡管在時間上落后GPT-4許多,但被谷歌以“能力最強”對外推出,“強”的一面是Gemini的多模態(tài)能力。

它能夠同時處理和解析文本、圖像、音頻、視頻以及代碼等多種數(shù)據(jù)類型,也就是說,用戶可以將各種形式的信息輸入給Gemini,它不僅能理解,還能分析甚至按你的需求處理任務。

目前,Gemini還在1.0版,按規(guī)模不同分為Ultra、Pro和Nano。Ultra版本是適用于高度復雜的任務,而Pro版本則專注于多任務處理,Nano版本則針對移動設備上的應用。三種版本有針對性地適用于多個不同場景,且在多項基準測試中展現(xiàn)出超群實力。

谷歌官方放出的宣傳視頻展示了Gemini超強的多模態(tài)能力,相信看完后你會驚呼。

“超級模型”Gemini Ultra的背后有谷歌發(fā)布的測試數(shù)據(jù)支撐。在32個廣泛用于測評大型語言模型(LLM)的學術基準中,它在30個上性能超過了大模型領域當前的技術水平。

Gemini Ultra號稱以90.0%的得分成為第一個在MMLU(大規(guī)模多任務語言理解)上“勝過人類專家的模型”,該測試使用數(shù)學、物理、歷史、法律、醫(yī)學和倫理學等57個學科的組合來測試世界知識和解決問題的能力。Gemini在包括文本和編碼在內的一系列基準測試中超越了目前的技術水平。

MMLU是一種針對大模型的語言理解能力的測評,包含了57個關于人類知識的多選題回答任務,涵蓋了初等數(shù)學、美國歷史、計算機科學、法律等,難度覆蓋高中水平到專家水平的人類知識,是目前主流的的大模型語義理解測評之一。

從谷歌給出的測試結果來看,Gemini在理解復雜數(shù)據(jù)和執(zhí)行高級任務方面將對GPT-4構成強有力的競爭。

谷歌稱Gemini在MMLU測評中首次超越人類專家

由于從一開始構建就基于多模態(tài)訓練,Gemini Ultra理論上對文字、圖片、語音、視頻、代碼等各種形態(tài)的信息都能理解,這就給AI應用和使用場景帶來了更多可能性。

例如在教育領域,借助Gemini Ultra的多模態(tài)推理技能,凌亂的手寫筆記能被理解,學生解題時出錯的步驟能被發(fā)現(xiàn),然后給出題目的正確解答和過程。這一套下來,不能說要淘汰教師吧,至少老師們也得到了一個高能AI助手。

Gemini可以批改學生作業(yè)

在視頻的理解與推理上,Gemini Ultra甚至展現(xiàn)出“足球教練”的素養(yǎng),能分析運動員的動作與發(fā)力,還會給出具體的改進建議。

Gemini可理解視頻內容并給運動員提供指導建議

對于復雜的圖像理解、代碼生成、指令跟蹤,Gemini Ultra也不在話下。輸入圖像與提示次“我希望你采用左上角子圖中描繪的函數(shù),將其乘以1000,然后將其添加到左下子圖中描繪的函數(shù)中,生成matplotlib代碼單個結果圖”后,Gemini Ultra能夠完美的執(zhí)行逆圖形任務來推斷生成繪圖的代碼、執(zhí)行額外的數(shù)學轉換并生成相關代碼。

從谷歌給出的這些案例看,GeminiUltra簡直是“地表最強”的大模型,觀眾朋友們最想知道的是,這個大模型界的“超級賽亞人”,咱啥時候能用上?

按照谷歌的披露,從12月6號開始,Bard就會上載Gemini Pro的精細調整版本,用于更高級的推理、規(guī)劃、理解等,這是Bard自推出以來的最大升級。

需要注意的是,集成了Gemini Pro的Bard只提供英語支持,可在全球170多個國家和地區(qū)使用,計劃在不久的將來擴展到不同的模態(tài),支持新的語言和地區(qū)。也就是說,中文用戶目前還無法完美體驗Gemini Pro。

Gemini Nano最先在谷歌的Pixel 8 Pro智能手機上應用,從WhatsApp開始,明年將支持更多的消息應用。

在未來幾個月中,Gemini還將在更多的產品和服務中推出,包括Search、Ads、Chrome和Duet AI。也就是說,谷歌的搜索引擎中也將輸入Gemini能力。

至于“最強”的GeminiUltra,普通用戶還得等等。谷歌說,它正在進行信任和安全性檢查,在推出前還得通過對人類反饋的微調和強化學習(RLHF)的進一步改進。

在這個過程中,GeminiUltra會有選擇地給客戶、開發(fā)人員、合作伙伴以及安全和責任專家拿來早期實驗,等待反饋,然后在明年初向開發(fā)人員和企業(yè)客戶開放。

二、Ultra的MMLU“試卷”疑為谷歌版???????????

展示的是最強的GeminiUltra,但推出和使用要緩一緩,谷歌這樣的操作很快就惹來了懷疑,真比GPT-4強嗎?

彭博社就出來“打臉”說,谷歌的模型和OpenAI相比還仍有差距,現(xiàn)在這能力也僅憑演示,而視頻演示還是錄制的,又不實時,很可能是“精心調整的文本提示與靜態(tài)圖像”。彭博社還指出,Gemini的回答需要其他信息的輔助,在真正的交互中需要暗示性很強的提示。

圍觀演示視頻的網(wǎng)友們也覺得,視頻中有很明顯的剪輯痕跡,“強大的能力存在水分”。

而谷歌給Gemini Ultra考試的MMLU測評,被網(wǎng)友指出用的是自家出的“試卷”。在57個科目的多選題測試中,得了90分的Ultra,底下分明標著“CoT@32*”,這是谷歌自己調試的測評方案。如果采用和GPT-4同樣的標準,它的得分只有83.7,還不如得分86.4的GPT-4。

Gemini Ultra在谷歌調整的測試方案中得分90

學術上的事情太專業(yè),好在谷歌已經把Gemini植入了Bard,盡管用的是Utral的低配版Pro,但也號稱能多任務處理,這是普通大眾最能直接測試Gemini的方式了。

《元宇宙日爆》直接選用了數(shù)學題,因為ChatGPT對數(shù)學就不太精通,而有唯一正確性的數(shù)學被OpenAI視作通往AGI的基礎,咱來看看被輸入Gemini能力的Bard是否擅長數(shù)學。

我們統(tǒng)一用英文進行提問,題1為求算圓錐體積,題2為稍難的幾何證明題。

測試結果表明,Gemini Pro能夠準確識別圖像以及圖片內的文字,也能夠正確解決簡單數(shù)學問題,但在處理復雜數(shù)學題時,仍然存在明顯錯誤。題2中的錯誤就很明顯,Bard在第2步將EG與AB兩條線錯誤地證明為相互垂直。

有Gemin Pro能力的Bard做數(shù)學題還不完美

這難道是因為Bard用的是Gemini Pro而顯得不夠強大?那咱只能等Ultra加入再測試了。

而會引入智能手機Pixel 8 Pro的Gemini Nano,將應用在“記錄器摘要”和“Gboard智能回復”兩項功能中。

按谷歌說法,即使手機不連網(wǎng),記錄器也可以獲得手機對話錄音、采訪、演示等內容的摘要;而智能回復功能類似掛斷電話后的自動回復,Gemini Nano可以識別來信的內容,生成對應的回復。不過,這兩項功能,目前也只支持英文文本的識別。

按照DeepMind曾提出的AGI評估框架,在AGI-1階段,人工智能將能夠跨領域和跨模態(tài)地進行學習和推理,在多個領域和任務上表現(xiàn)出智能,如問答、摘要、翻譯、對話等,實現(xiàn)與人類和其他AI進行基本的溝通和協(xié)作,感知和表達簡單的情感和價值。

綜合Google官方發(fā)布與實際測試體驗來看,值得期待并有希望超越GPT-4模型的仍是尚未公開發(fā)布的Ultra版本,如果這個版本的多模態(tài)能力真能如演示般表現(xiàn),那么谷歌距離它定義的AGI也就不遠了。

作者:木沐,編輯:文刀

來源公眾號:元宇宙日爆(ID:yuanyuzhouribao),在這里,看見未來。

本文由人人都是產品經理合作媒體 @元宇宙日爆 授權發(fā)布,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!