試用完谷歌的Gemini,我只想說GPT-4有點遜色

差評
1 評論 4914 瀏覽 16 收藏 16 分鐘
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

隨著AI大模型的推廣,眾多廠商紛紛下水,谷歌悶聲放大招,推出了最新的人工智能模型 Gemini,甚至放言稱它是規(guī)模最大、能力最強的人工智能模型。它與GPT-4相比有什么優(yōu)越性呢?一起來看看吧!

告訴 GPT-4 :安,勿念。我這邊和谷歌 Gemini 過得很幸福。

就在今天凌晨,憋了好久的谷歌開大了,直接推出了最新的人工智能模型 Gemini (雙子座)。

這個被谷歌稱為規(guī)模最大、能力最強的人工智能模型,如果光看官方的演示視頻,那真的過于高級了點。

在視頻里, Gemini 不僅秒識別演示者畫的畫、放的視頻、做的小把戲、玩的惡作劇,而且整個過程中對答如流,各種語氣助詞熟練得飛起。

如果沒提前說,你甚至都會以為這就是電影里的賈維斯。

要真這么牛逼,還要什么 GPT-4 ???

不過差評君仔細看了下發(fā)現(xiàn),這次發(fā)布的 Gemini 其實是一個家族式大模型,分別是“中杯”Gemini Nano、“大杯”Gemini Pro 和“超大杯”Gemini Ultra 。

目前現(xiàn)在大家能用上的都是 Gemini Pro ,而大部分的測試演示都是基于“超大杯”Gemini Ultra 來的。

從官方放出的數(shù)據(jù)來看,雖然每個版本都有自己合適的環(huán)境,但不同版本間,性能還是有著明顯差異的。

而“超大杯”的 Gemini Ultra 的能力確實是杠杠的。

不僅在各種常規(guī)測試里都薄紗了 GPT-4 。

甚至在MMLU(大規(guī)模多任務(wù)語言理解)測試里,Gemini Ultra超過GPT-4還不夠,還超越了人類專家,成為了第一個在該方面超越人類的模型。

除了在常規(guī)能力上的全面超越 GPT-4 , Gemini 最特殊的一點是,它是谷歌帶來的首個多模態(tài)大模型,也就是能不光能打字互動,也能進行語音、視頻、圖片的互動。

按照谷歌的說法,現(xiàn)有的所謂多模態(tài)大模型,都是單獨訓(xùn)練了文本、視覺和音頻等模型,再把這幾個拼接起來。

這樣出來的“散裝”多模態(tài)大模型,在遇到圖片、文字、語音或者視頻同時出現(xiàn)時,只會分解出不同模塊各自回答,然后匯總各個部分的回答最后形成答案。

而 Gemini 從根上就是個多模態(tài)模型,然后又通過大量多模態(tài)數(shù)據(jù)訓(xùn)練,它能夠一開始就同步理解多模態(tài)。

這就好比遇到一個中日韓英混雜的旅游團,以往都是找懂對應(yīng)語言的導(dǎo)游組成導(dǎo)游團去帶隊。

而 Gemini 的做法是找了一個通曉中日韓英四門語言的導(dǎo)游,一個人就能無縫安排所有游客。

所以不出意外,在此前 GPT-4V “遙遙領(lǐng)先”的多模態(tài)測試里, Gemini 也呈現(xiàn)了一種全面超越的姿態(tài)。

但也就是看起來過于牛逼,以至于顯得不夠真實,所以 Gemini 也在網(wǎng)上招來不少質(zhì)疑。

比如有人吐槽明明 90.0%和 89.8%就差了千分之二,結(jié)果圖里看起來像是巨大提升。

而且不少人還發(fā)現(xiàn)在不少測試里,谷歌用了些“春秋手法”。

因為給 Gemini Ultra 和 GPT-4 使用的測試方法并不一樣, Gemini Ultra 用的是自家特調(diào)的全新方法 CoT@32*。

在這種新方法下, GPT-4 得分提升一般般,而 Gemini 卻進步明顯。

可如果 Gemini Ultra 和 GPT-4 的同一標準,那它的得分就只有 83.7 ,還不如 GPT-4 。

甚至,還有不少人懷疑那個演示互動視頻也是剪輯出來的賣家秀,實際效果絕對沒那么牛。

這些真真假假的戲碼咱也不管了,因為谷歌已經(jīng)在 Bard 上用了微調(diào)后的 Gemini Pro ,所以我們也可以直接看看,這波升級后的 Bard 能耐到底漲了多少。

不過,目前調(diào)整過的 Bard 只支持英文,所以我們找來了 GPT-4V 版的 ChatGPT ,用英文讓他們來一波華山論劍

按照谷歌說法,這次 Gemini 在多模態(tài)上的長進最大,所以今天,我們主要就測測這塊。

先考考它們的一些基礎(chǔ)常識,丟一張八達嶺長城的照片過去,讓它們猜猜這是什么地方。

沒想到一上來 Bard 就給了 ChatGPT 一個下馬威, Bard 這邊準確地給出了八達嶺長城的答案。

而 ChatGPT 這邊卻有點底氣不足,只給了個長城的答案,至于是哪段,它就沒具體說。

不過馬有失蹄,偶爾一次失誤也沒啥,為了進一步考驗它們的圖片識別能力,這把我直接讓他們識別車的型號。

它們倒是都給出正確答案了:雪佛蘭科爾維特

但細節(jié)上還是 Bard 要稍稍細致些,發(fā)動機的型號,馬力以及加速情況都寫出來了,查了下也都對的上,沒胡說八道。

ChatGPT 這邊,就只簡單給出了答案,帶了句性價比不錯。

能識別出這些正兒八經(jīng)的圖片,也顯示不出有多大的能耐,畢竟現(xiàn)在這都是大模型的基本要求了。

于是差評君又上網(wǎng)找來了些梗圖,試試它們理解人類復(fù)雜思維的程度。

先是這個狗帶保護頭套的一個梗圖。

Bard 和 ChatGPT 給出的答案都差不多,都點明了帶上這個保護套后,狗狗很想舔舐傷口。

接下來我又試了下這個貓貓表情包,各位打工人應(yīng)該都能 get 到吧。

Bard 不僅讀出了大伙們討厭周一的意思,還認出了這是 2012 年火的一只網(wǎng)紅貓。

ChatGPT 這邊回答得倒很簡潔,意思也解讀出來了,和 Bard 旗鼓相當。

畢竟,幽默作為一種對事物的詼諧、滑稽或不合邏輯的理解和共鳴。。。

能讀懂梗圖、理解幽默,至少需要 AI 有理解人類情感、經(jīng)驗和文化背景的能力。

當然,天天要碼字的差評君也得試試它的圖表分析能力,說不定之后咱也能多了個生產(chǎn)力工具。。。

我從美國財政部的官網(wǎng)隨便找了張柱狀圖丟給它們,看看它們能讀出多少信息。

這塊兒, Bard 和 ChatGPT 就有點難分伯仲了,大家給出的信息點都大差不差,都準確讀出了美國會加大對低等基礎(chǔ)設(shè)施州的投資力度。

就只是在表述語序上有一點差別,選哪個就看個人喜好了,不過要我說白嫖黨還是 Bard 香啊。

最后,我們還搬出了大模型們的噩夢,也就是數(shù)學題,測了測它們的數(shù)學能力。

第一道是道初中難度的幾何題,讓它們求一下 ABO 的角度。

Bard 這邊小試牛刀,迅速判斷出了 ABO 是個等邊三角形,得到 ABO 是個 60°的答案。

在另一道,判斷哪些點連續(xù)但不可微的題目上, Bard 這邊也略勝一籌。

有點高數(shù)基礎(chǔ)的差友,應(yīng)該都能看出 C :x=-2 和 x=1 是正確答案。

Bard 這邊穩(wěn)扎穩(wěn)打,選出了正確答案 C 。

ChatGPT 繼續(xù)選擇破罐子破摔,支支吾吾選了個它認為最有可能的答案 B 。。。

總得來講,在幾輪的測試對比之后,終于讓差評君遇個到能和 GPT-4V 打得有來有回,甚至有些小優(yōu)的大模型了。

而在幾天之后的 13 號,開發(fā)者和企業(yè)用戶,也直接可以調(diào)用 Gemini Pro 的 API 了。

另外,谷歌還準備把 Gemini 引入了 Pixel , Pixel 8 Pro 將是第一款運行 Gemini Nano 的智能手機。

在接下來的幾個月中, Gemini 還會相繼和搜索、廣告、 Chrome 等服務(wù)和產(chǎn)品結(jié)合。

至于紙面實力“暴打”GPT-4V 的 Gemini Ultra ,則還要等到明年的年初,在 Bard Advanced 才能體驗到。

最后,差評君想說俗話講得好,巨人難轉(zhuǎn)身。。。不少人用這樣的比喻,來形容今年谷歌在 AI 新時代的困境。

畢竟上半年發(fā)布 Bard 的時候,甚至還因為推出得太急,整出了不少笑話。

谷歌的 AI 從遙遙領(lǐng)先,到淪為 OpenAI 追趕者的故事,似乎也成了科技圈的“傷仲永”,被大家當成了典型。

但差評君覺得,巨人轉(zhuǎn)身的“難”,最起碼有兩層邏輯在里面。

第一層是愿不愿意轉(zhuǎn)身,另一層,才是成不成功的問題。

無論是雪藏“數(shù)碼相機”的柯達,還是固守塞班系統(tǒng)到 2013 年的諾基亞,在第一層就出了些問題。

咱們也能看到,至少在轉(zhuǎn)身的態(tài)度這塊兒,谷歌是沒得說。

而目前的 Gemini 給我的感覺,雖說沒有當時初識 ChatGPT 時的驚艷,但好歹,是谷歌該有的水平。

畢竟,大伙們可別忘了,當年奧特曼、馬斯克等人創(chuàng)辦 OpenAI 的目的之一,就是為了打破谷歌在 AI 領(lǐng)域的壟斷。

包括“ GPT ”中的“ T ”,也就是 Transformer ,最早也是谷歌團隊提出來的。

而起了個大早,趕了個晚集的谷歌,這次最起碼跟上了步伐。

當然在通往 AGI 的道路上,差評君不好說谷歌、 OpenAI 、或是其他誰誰誰會第一個到終點、誰的方向是不是走對了。

但不能否認的是,如果一個內(nèi)力雄厚的巨人一旦轉(zhuǎn)身成功,方向還碰巧對了,并且還開啟氮氣加速。。。

那,怕是誰也擋不住。

撰文:八戒,編輯:江江 & 大餅 & 面線

來源公眾號:差評(ID:chaping321),Debug the World。

原文標題:試用完谷歌的Gemini,我只想說GPT-4有點菜

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @差評 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 誰要gpt4啊

    來自廣東 回復(fù)