亚洲国产激情在线一区,午夜福利黄色无码av,亚洲精品中文字幕无码蜜桃

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

開通會員

發(fā)布

注冊 | 登錄

GPT-4地位難保，谷歌Gemini新王登基？

虎嗅

2023-12-07

2 評論 1788 瀏覽 3 收藏

🔗 技术知识、行业知识、业务知识等，都是B端产品经理需要了解和掌握的领域相关的知识，有助于进行产品方案设计和评估

就在最近，谷歌官宣了其最新大模型Gemini 1.0，這款大模型Gemini，甚至被谷歌CEO稱為“谷歌迄今為止最大、能力最強的AI模型”。那么，Gemini究竟厲害在哪里？這篇文章里，作者做了分析和梳理，一起來看。

當(dāng)?shù)貢r間12月6日，谷歌官宣了其最新大模型Gemini 1.0。

Gemini 1.0與LLaMA模型相似，也是一套系列模型，其中包含三個版本：

Gemini Ultra——參數(shù)量最大，能力最強，適用于高度復(fù)雜的任務(wù)。
Gemini Pro——可擴展至各種任務(wù)的模型。
Gemini Nano——高效的設(shè)備端任務(wù)模型。

Gemini 1.0主打多模態(tài)能力，谷歌將Gemini定義為一款“原生多模態(tài)（natively multimodal）”模型。

在模型能力方面，谷歌稱Gemini Ultra的性能在大型語言模型（LLM）研發(fā)中使用的32個廣泛使用的學(xué)術(shù)基準(zhǔn)中的30個超過了當(dāng)前最先進的結(jié)果。

在MMLU（大規(guī)模多任務(wù)語言理解）測試框架中，Gemini Ultra的得分高達90.0%，甚至超越了人類專家。

Gemini被谷歌CEO Sundar Pichai稱為“谷歌迄今為止最大、能力最強的AI模型”。

Sundar Pichai在Gemini的官宣博客中寫道：

“在許多領(lǐng)先的基準(zhǔn)測試中都具有最先進的性能。谷歌的第一個版本Gemini 1.0針對不同尺寸進行了優(yōu)化：Ultra、Pro和Nano。這些是Gemini時代的第一個模型，也是谷歌今年早些時候成立Google DeepMind時的愿景的首次實現(xiàn)。這個模型的新時代代表了谷歌作為一家公司所做出的最大的科學(xué)和工程努力之一。我對未來以及雙子座將為世界各地的人們帶來的機會感到由衷地興奮?！?/p>

目前，谷歌官方稱其主打的聊天機器人 Bard已升級至Gemini Pro版本，能力在推理、規(guī)劃和理解等方面得到顯著提升，并繼續(xù)免費向用戶提供服務(wù)。谷歌預(yù)計明年初推出更為先進的“Bard Advanced”，屆時將采用Gemini Ultra。

在Gemini發(fā)布之前，谷歌在生成式AI和LLM方面主推的兩款模型PaLM 2和LaMDA，在用戶當(dāng)中收獲的評價一直不高，相對于業(yè)界領(lǐng)軍的GPT-4差距很大。

由此，傳聞中谷歌重點研發(fā)的Gemini模型一直被寄予厚望。Gemini也是谷歌大腦（Google Brain）和DeepMind合并組建Google DeepMind之后的首個重要產(chǎn)品。

下面我們來看看，Gemini到底牛在哪？

一、超過人類專家，向強人工智能邁近一步？

“Gemini在MMLU基準(zhǔn)測試中超越人類專家?！?/strong>

雖然，有了AlphaGo的經(jīng)驗，我們并不認為AI在某些領(lǐng)域超越人類是什么新鮮事。但今時不同往日，在ChatGPT帶來的AGI、強人工智能“威懾”下，任何被稱為超越人類的AI，多多少少都會引人側(cè)目。

那么在這個測試集中超越人類專家，到底有多厲害呢？

B 端产品经理如何快速成长？

产品与业务架构主要是将整个业务工作流进行分层，梳理，然后抽象出一个个需求，将业务需求与产品合情合理的映射起来，最终使业务数据在产品中流动，执行，记录，使用。

查看详情 >

大型語言模型（LLM）的主流評測數(shù)據(jù)集包括：GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于評估模型在語言理解、推理、閱讀理解和常識推理等方面的能力。

MMLU（大規(guī)模多任務(wù)語言理解）是一個結(jié)合了數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理學(xué)等57個科目的測試集。相比于其他測試集，MMLU的廣泛性和深度更強，它通過大量和多樣的任務(wù)來測試AI模型在理解自然語言方面的能力，特別是在復(fù)雜和多變的真實世界場景中的表現(xiàn)。這使得MMLU成為一個極具挑戰(zhàn)性的評測框架，可以全面地評估和推動大型語言模型的發(fā)展。

GPT-4與Gemini在MMLU測試集的對比

這個框架通常包括數(shù)以千計的不同任務(wù)，涵蓋廣泛的主題和挑戰(zhàn)。MMLU的目的是提供一個全面且多樣化的方法，測試和評估語言模型在各種復(fù)雜和現(xiàn)實世界場景中的表現(xiàn)。其中的測試任務(wù)可能包括理解笑話、回答有關(guān)世界歷史的問題、解釋科學(xué)現(xiàn)象等眾多更接近于人類知識、常識和理解能力的項目。

在MMLU測試中超越人類專家，也可以理解為，在這個測試框架下，Gemini在“各種復(fù)雜和現(xiàn)實世界場景中的表現(xiàn)”超越了人類專家。

谷歌在官方博客中稱：Gemini利用MMLU基準(zhǔn)方法使Gemini能夠利用其推理能力在回答難題之前更仔細地思考，從而比僅使用第一印象有顯著改進。

除此之外，Gemini Ultra還在新的MMMU（專家AGI的大規(guī)模多學(xué)科多模式理解和推理）基準(zhǔn)測試中取得了59.4%的最先進分數(shù)，該基準(zhǔn)測試由跨越不同領(lǐng)域、需要深思熟慮的推理的多模態(tài)任務(wù)組成。

谷歌的測試顯示Gemini Ultra的性能優(yōu)于之前最先進的模型，無需從圖像中提取文本以進行進一步處理的對象字符識別(OCR)系統(tǒng)的幫助。這些基準(zhǔn)凸顯了雙子座天生的多模態(tài)性，并表明了雙子座更復(fù)雜推理能力的早期跡象。

Gemini在文本和編碼等一系列基準(zhǔn)測試中的表現(xiàn)

在某個測試集中超越人類專家，對于AGI或者強人工智能來說雖然還相去甚遠，但仍可以說是在這條路上邁出的堅實一步。

二、原生多模態(tài)，比GPT-4更強大？

其實Gemini的LLM性能表現(xiàn)并不是他最大的亮點。Gemini真正值得關(guān)注的差異化能力是“原生多模態(tài)”。

首先，什么是“Gemini’s native multimodality”（Gemini的原生多模態(tài)能力）？

原生多模態(tài)能力，指的是Gemini模型固有的能力，可以直接理解和處理多種不同類型的數(shù)據(jù)，而不需要額外的專門處理或轉(zhuǎn)換。

有人可能會疑惑，那這與GPT-4有何不同？

打個簡單的比方：假如GPT-4是一個詩人，他不僅擅長寫詩，還會畫畫，但寫詩是他的職業(yè)，畫畫只是他的副業(yè)。GPT-4能處理文字（寫詩）和圖片（畫畫），但它主要還是以文字處理為強項。

具有“原生多模態(tài)能力”的Gemini則是一個詩人、畫家“雙料人才”，他在寫詩和畫畫方面同樣出色，沒有哪一方面比另一方面弱。Gemini能夠同時處理文字和圖片，并且在這兩個方面都做得很好，沒有主次之分。

GPT-4的多模態(tài)能力可能更多地是通過將不同模型的能力集成到一個框架中來實現(xiàn)的，而不是所有功能都在一個統(tǒng)一的模型中原生實現(xiàn)。作為一個大型語言模型，GPT-4的主要優(yōu)化和訓(xùn)練是圍繞語言理解和生成。對于圖像處理，雖然它展現(xiàn)了一定的能力，但可能不如那些專門針對圖像處理優(yōu)化的模型。而一個真正的本地多模態(tài)模型會在所有模態(tài)上都進行平衡和優(yōu)化。

Gemini的多模態(tài)理解能力

原生多模態(tài)能力意味著模型能夠更自然、高效地處理和融合多種類型的數(shù)據(jù)，這在實現(xiàn)更復(fù)雜的AI應(yīng)用方面具有重要意義。

當(dāng)然，這也是更接近人類的理解方式。人類在理解世界時自然地融合了視覺、聽覺和語言等多種感官信息。一個具有本地多模態(tài)能力的AI模型在處理信息時也采用了類似的綜合方式，這更接近于人類的理解和認知方式。

三、全方位“打敗”GPT-4

Gemini不僅是在模型能力和多模態(tài)能力方面敢與GPT-4一爭高下。在應(yīng)用方面，也提供了更多選擇。

1. “小模型”

模型系列中的最小尺寸的Gemini Nano模型，被設(shè)計為適用于內(nèi)存受限的端側(cè)設(shè)備。它在多種任務(wù)上展示了出色的性能，尤其是在多模態(tài)和多語言處理方面。Gemini Nano的這些特性使其成為適合在資源受限環(huán)境中使用的強大工具。

雖然目前大模型的主流趨勢仍是“依云而生”，但在AI未來的商業(yè)化版圖中，離線、個人化、小型化的端側(cè)模型正在受到越來越多的重視。

過去幾個月中，高通、聯(lián)想等眾多巨頭都在反復(fù)強調(diào)自己在端側(cè)生成式AI的戰(zhàn)略布局。高通推出的最新一代驍龍芯片對生成式AI提供了強大的支持能力，聯(lián)想則提出AI PC概念，并強調(diào)未來一段時間里將圍繞AI對已有的全部產(chǎn)品展開大刀闊斧地改革。

然而，硬件設(shè)備廠商非?；钴S的同時，AI廠商對端側(cè)的關(guān)注卻并不怎么高。以百模大戰(zhàn)的國內(nèi)市場為例，目前只有個位數(shù)的廠商正式宣布過自己的端側(cè)小模型。其中包括雷軍在8月的年度演講中提到的小米MiLM模型的13億參數(shù)版本，以及通義千問在12月1日開源的Qwen-1.8B模型。

在這方面，相比OpenAI，谷歌更有動力去研究端側(cè)小模型。畢竟谷歌本身具備Pixel手機和Android的雙重優(yōu)勢。

2. 訓(xùn)練

谷歌在訓(xùn)練Gemini過程中大量使用了自研的張量處理單元（TPU）v4和v5e。

在TPU上，Gemini的運行速度明顯快于早期、較小且功能較差的型號。這些定制設(shè)計的人工智能加速器一直是谷歌人工智能產(chǎn)品的核心，這些產(chǎn)品為搜索、YouTube、Gmail、谷歌地圖、Google Play和Android等數(shù)十億用戶提供服務(wù)。它們還使世界各地的公司能夠經(jīng)濟高效地訓(xùn)練大規(guī)模人工智能模型。

隨著Gemini的問世，谷歌也宣布了TPU系統(tǒng)的最強升級Cloud TPU v5p，專為訓(xùn)練尖端AI模型而設(shè)計。

在訓(xùn)練優(yōu)化方面，Gemini增加了對模型并行性和數(shù)據(jù)并行性的利用，并對網(wǎng)絡(luò)延遲和帶寬進行了優(yōu)化。Gemini還使用了Jax和Pathways編程模型，為復(fù)雜的數(shù)學(xué)運算（如在機器學(xué)習(xí)中常見的運算）提供了優(yōu)化的支持。

Jax特別適用于高效地執(zhí)行大規(guī)模的數(shù)組運算。Pathways指用于管理和協(xié)調(diào)大規(guī)模訓(xùn)練任務(wù)的編程模型或框架。通過使用這些工具，Gemini模型的開發(fā)者可以使用單個Python進程來協(xié)調(diào)整個訓(xùn)練過程，這樣可以簡化開發(fā)和訓(xùn)練工作流，同時利用Jax和Pathways的高效性能。

3. 復(fù)雜推理能力

Gemini 1.0復(fù)雜的多模式推理功能可以幫助理解復(fù)雜的書面和視覺信息。這使得它在發(fā)現(xiàn)大量數(shù)據(jù)中難以辨別的知識方面具有獨特的能力。

批改物理作業(yè)

其通過閱讀、過濾和理解信息從數(shù)十萬份文檔中提取見解的卓越能力將有助于在從科學(xué)到金融的許多領(lǐng)域以數(shù)字速度實現(xiàn)新的突破。

Gemini 1.0經(jīng)過訓(xùn)練，可以同時識別和理解文本、圖像、音頻等，因此它可以更好地理解微妙的信息，并可以回答與復(fù)雜主題相關(guān)的問題。這使得它特別擅長解釋數(shù)學(xué)和物理等復(fù)雜學(xué)科的推理。

4. 編程

Gemini可以理解、解釋和生成世界上最流行的編程語言（如Python、Java、C++和Go）的高質(zhì)量代碼。它跨語言工作和推理復(fù)雜信息的能力使其成為世界領(lǐng)先的編碼基礎(chǔ)模型之一。

Gemini Ultra在多個編碼基準(zhǔn)測試中表現(xiàn)出色，包括HumanEval（用于評估編碼任務(wù)性能的重要行業(yè)標(biāo)準(zhǔn)）和Natural2Code（谷歌內(nèi)部保留的數(shù)據(jù)集），該數(shù)據(jù)集使用作者生成的源而不是基于網(wǎng)絡(luò)的信息。

Gemini還可以用作更高級編碼系統(tǒng)的引擎。兩年前，谷歌推出了達到競賽水平的AI代碼生成系統(tǒng)AlphaCode。如今基于Gemini技術(shù)開發(fā)，剛剛又開發(fā)了AlphaCode 2，專門針對競技編程任務(wù)進行了優(yōu)化和增強。

四、Gemini的下一步規(guī)劃

雖然谷歌在技術(shù)文件和官方博客中把Gemini吹得很神，好像已經(jīng)把OpenAI踩在腳下了。但今天的發(fā)布其實只是一個“論文”而已，真正有能力對標(biāo)GPT-4的Gemini Ultra要到明年年初才會上線。

Gemini家族的老二，Gemini Pro目前已經(jīng)準(zhǔn)備開始為谷歌的對話機器人產(chǎn)品Bard提供支持了。

谷歌在博客中稱：從今天開始，Bard將使用Gemini Pro的微調(diào)版本來進行更高級的推理、規(guī)劃、理解等。這是Bard自推出以來最大的升級。它將在170多個國家和地區(qū)提供英語版本，谷歌計劃在不久的將來擴展到不同的模式并支持新的語言和地點。

不過，截至發(fā)稿，在bard上的測試仍顯示未升級到Gemini，且bard對Gemini的了解也十分有限。

提問Bard是否已經(jīng)升級Gemini

Gemini Nano則被規(guī)劃到了Pixel。谷歌將在Pixel 8 Pro中首次內(nèi)置Gemini Nano。這款手機將支持Recorder應(yīng)用中的Summarize等新功能，并從WhatsApp開始推出Gboard中的Smart Reply，明年還會推出更多消息應(yīng)用。

從12月13日開始，開發(fā)者和企業(yè)客戶可以通過Google AI Studio或Google Cloud Vertex AI中的Gemini API訪問Gemini Pro。

Google AI Studio是一款基于網(wǎng)絡(luò)的免費開發(fā)者工具，可使用API密鑰快速構(gòu)建應(yīng)用程序原型并啟動應(yīng)用程序。當(dāng)需要完全托管的AI平臺時，Vertex AI允許對Gemini進行自定義，提供全面的數(shù)據(jù)控制，并受益于額外的Google Cloud功能，以實現(xiàn)企業(yè)安全、安全、隱私以及數(shù)據(jù)治理和合規(guī)性。

Android開發(fā)人員還可以通過AICore（Android 14中提供的新系統(tǒng)功能，從Pixel 8 Pro設(shè)備開始）使用Gemini Nano（谷歌最高效的設(shè)備端任務(wù)模型）進行構(gòu)建。

除此之外，Gemini已經(jīng)確定會很快融入到谷歌的業(yè)務(wù)中。在接下來的幾個月中，Gemini將出現(xiàn)在更多谷歌產(chǎn)品和服務(wù)中，例如搜索、廣告、Chrome和Duet AI。

谷歌稱已經(jīng)開始在搜索中試驗Gemini，它使用戶的搜索生成體驗（SGE）更快，美國英語的延遲減少了40%，同時質(zhì)量也得到了提高。

值得注意的是，對于谷歌來說，搜索始終是其看家業(yè)務(wù)。Gemini在谷歌搜索、廣告業(yè)務(wù)中的全面鋪開，可能會徹底改變未來的廣告和營銷邏輯。

在最近的一次工業(yè)軟件研討會中，一位工業(yè)企業(yè)高管對虎嗅吐槽說，“谷歌的競爭對手在互聯(lián)網(wǎng)上鋪了很多軟文，但是我們沒有買軟文。這就導(dǎo)致這些軟文成了LLM訓(xùn)練的數(shù)據(jù)，進而沉淀到它的知識庫中。在AI的意識里，我們的競爭對手已經(jīng)被看作是默認的行業(yè)標(biāo)準(zhǔn)了。”

這種現(xiàn)象，早在2022年底，就已經(jīng)有人預(yù)言了，“SEO is Dead, Long Live LLMO”的口號。彼時的ChatGPT還沒有聯(lián)網(wǎng)功能，而今天的Gemini幾乎已經(jīng)確定要融入到谷歌的搜索引擎中，并完全改變未來的網(wǎng)絡(luò)搜索邏輯。

作者：齊??；出品：虎嗅科技組

來源公眾號：虎嗅APP（ID：huxiu_com），從思考，到創(chuàng)造

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @虎嗅授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

Gemini GPT-4 多模態(tài)大模型搜索引擎谷歌

虎嗅

從思考，到創(chuàng)造

97篇作品 401618總閱讀量

為你推薦

拆分與合并：用智慧駕馭電商訂單，讓生意更上一層樓

05-172016 瀏覽

4萬字B端產(chǎn)品拆解丨從0到1拆解小鵝通后臺設(shè)計（一）

02-2018521 瀏覽

B端产品设计思路：如何平衡大量客户需求
刚刚

入局跑腿業(yè)務(wù)，滴滴、高德們找到新戰(zhàn)場

12-051539 瀏覽

反思國產(chǎn)大模型：如果泡沫不可避免，我們該如何面對這場革命？

06-202689 瀏覽

抖音外賣，認清現(xiàn)實

06-132840 瀏覽

評論

評論請登錄

杭一方??

樓主發(fā)文順便說下怎么使用比較接地氣

最近來自浙江回復(fù)

花盆前空翻

我也是查了一圈，沒找到在哪里注冊，怎么使用

最近來自美國回復(fù)

举报

為你推薦

需求难做，商业模式难找，我是如何做好B端产品经理的

「共創(chuàng)感」——重新認識品牌：哈姆雷特、特修斯之船和為了部落（2）

04-273538 瀏覽

媒介、內(nèi)容與社交

04-035896 瀏覽

為了商業(yè)化，B站又有變動了

07-031850 瀏覽

推荐专题更多专题

社群
付费群 | 免费群

快訊
查看更多

熱門文章

滴滴美團初創(chuàng)期：如何控制預(yù)期撬動用戶口碑傳播

04-17

從0到1搭建一個AI智能體應(yīng)用

04-10

热议：如何制定有效的产品经理职业规划？

刚刚

DeepSeek很會寫，卻干不掉廣告人

04-14

高級數(shù)據(jù)分析師必備的八大能力

04-11

MEUX「三月」AI設(shè)計觀察

04-04

保姆級電商訂單實時加粉實操攻略（建議收藏）

04-22

文章導(dǎo)航

一、超過人類專家，向強人工智能邁近一步？

二、原生多模態(tài)，比GPT-4更強大？

三、全方位“打敗”GPT-4

四、Gemini的下一步規(guī)劃

關(guān)于
人人都是產(chǎn)品經(jīng)理（woshipm.com）是以產(chǎn)品經(jīng)理、運營為核心的學(xué)習(xí)、交流、分享平臺，集媒體、培訓(xùn)、社群為一體，全方位服務(wù)產(chǎn)品人和運營人，成立12年舉辦在線講座1000+期，線下分享會500+場，產(chǎn)品經(jīng)理大會、運營大會50+場，覆蓋北上廣深杭成都等20個城市，在行業(yè)有較高的影響力和知名度。平臺聚集了眾多BAT美團京東滴滴360小米網(wǎng)易等知名互聯(lián)網(wǎng)公司產(chǎn)品總監(jiān)和運營總監(jiān)，他們在這里與你一起成長。

合作伙伴

鏈接

隱私政策

投稿須知

意見反饋

幫助中心

公眾號

視頻號

友情鏈接

PM265

產(chǎn)品經(jīng)理導(dǎo)航

起點課堂

豬八戒網(wǎng)

人才熱線

伙伴云表格

網(wǎng)易易盾

個推

友盟+

糧倉

創(chuàng)業(yè)邦

每日報告

鳥哥筆記

慕課網(wǎng)

旗下品牌: 起點課堂 | 運營派 | 糧倉企微管家
?2010-2024 - 人人都是產(chǎn)品經(jīng)理 - 粵ICP備14037330號-粵公網(wǎng)安備 44030502001309號
 廣播電視節(jié)目制作經(jīng)營許可證（粵）字第03109號增值電信業(yè)務(wù)經(jīng)營許可證粵B2-20190788 版權(quán)所有 ? 深圳聚力創(chuàng)想信息科技有限公司