谷歌2小時瘋狂復(fù)仇,終極殺器硬剛GPT-4o!Gemini顛覆搜索,視頻AI震破Sora
被OpenAI提前截胡的谷歌,現(xiàn)在不甘示弱地開啟反擊!大殺器Project Astra效果不輸GPT-4o,文生視頻模型Veo硬剛Sora,用AI徹底顛覆谷歌搜索,Gemini 1.5 Pro達到200萬token上下文……谷歌轟出一連串武器,對OpenAI貼臉開大。
谷歌I/O 2024如期來了,眼花繚亂地發(fā)布了一堆更新。
跟OpenAI半小時的「小而美」發(fā)布會相比,谷歌顯然準(zhǔn)備得更加充分,當(dāng)然,時間也相當(dāng)之長……
2個多小時的發(fā)布會也是挑戰(zhàn)著觀眾們的極限,在場人群早已困倒一大片。
準(zhǔn)備好,谷歌要開始轟炸了。
首先,Gemini 1.5 Pro,上下文長度將達到驚人的200萬token。
然后,面對昨天OpenAI GPT-4o的挑釁,谷歌直接甩出大殺器Project Astra,視覺識別和語音交互效果,跟GPT-4o不相上下。
接著,谷歌祭出文生視頻模型Veo硬剛Sora,效果酷炫,時長超過1分鐘,打破Sora紀(jì)錄。
最后來了一個重磅消息:谷歌搜索將被Gemini重塑,形態(tài)從此徹底改變!我們不再需要自己點進搜索結(jié)果,而是由多步驟推理的AI Overview來代辦一切。
發(fā)布會結(jié)束后,劈柴甚至還用Gemini算了一下,整個發(fā)布會共提了121次AI。
一、Gemini時代,來了
CEO劈柴上來就無視了GPT和Llama的存在,這樣總結(jié)道:「我們完全處于Gemini時代」。
并且給出數(shù)據(jù):如今全世界使用Gemini的開發(fā)者,一共有150萬人。
萬眾矚目的Gemini更新如期而至。
Gemini 1.5 Pro最強特性之一,就是超長的上下文窗口,達到了100萬tokens的級別,超過了目前所有的大語言模型,而且開放給個人用戶使用。
今天,劈柴宣布:它的上下文token數(shù)將會達到2000K(200萬)!相比之下,GPT-4 Turbo只有128K,Claude 3也只有200K。
而這也意味著——你可以給模型輸入2小時視頻、22小時音頻、超過6萬行代碼或者140多萬單詞。
2M長上下文窗口,可以去排隊申請了
這個上下文長度,已經(jīng)超過了目前所有大模型。
但是,這并不是終點,谷歌的目標(biāo)是——無限長上下文,不過,這就是后話了。
1. 用籃球講解牛頓運動定律
在這樣的Gemini加持下,我們可以實現(xiàn)許多迅捷的功能。
比如,作為父母需要了解孩子在學(xué)校的情況,就可以在Gmail中要求Gemini識別所有關(guān)于學(xué)校的電子郵件,然后幫你總結(jié)出要點。
如果你錯過了公司會議,但可以拿到一小時時長的會議錄音,Gemini就能立刻幫你總結(jié)出會議要點。
為了幫助學(xué)生和教師,在NotebookLM中,谷歌設(shè)計了一個「音頻概述」的功能。
把左邊的所有材料作為輸入,Notebook就可以把它們整合成一個個性化的科學(xué)討論了。
對于聽覺學(xué)習(xí)型學(xué)生,這種形式就非常生動。
演示這個demo的Josh表示,自己的兒子第一次看到這個功能時,直接驚掉下巴。
他第一次感覺到,學(xué)習(xí)不再是死板的,牛頓力學(xué)定律居然以通過籃球來學(xué)習(xí)!
支持多模態(tài)的Gemini可以處理你上傳的任何格式的信息,理解內(nèi)容后將其改造成適合你的形式,與你對話互動了!
2. Agent:幫你申請退貨
接下來,劈柴展示了Agent的一些例子。
買了一雙鞋子,不合適想退回怎么辦?
拍一張照片給Agent,它就可以從你的郵箱中搜出訂單后,幫你填寫退貨單了。
再比如,你剛搬到某個城市,Agent就能幫你探索你在這個城市所需的服務(wù)了,比如干洗店、幫忙遛狗的人等等。
如果靠我們自己搜索,可是要搜十幾個網(wǎng)站,但Gemini可以發(fā)揮自己的「多步推理」能力包攬這些任務(wù),把你需要的信息一次性提供給你!
搜索和整合信息的功能非常強大,輸入新家的地址后,它甚至可以代替軟件問你外賣應(yīng)該放哪個位置。
總的來說,谷歌的理念就是:利用Gemini的多模態(tài)、超長上下文和智能體能力,把世界上的所有信息組織起來,讓它們對每個人都可觸達、可利用。
而最終目標(biāo),就是讓AI對每一個人都有用。
二、谷歌搜索,被Gemini徹底重塑
之前OpenAI一直有意無意放出煙霧彈,聲稱要發(fā)布全新的搜索產(chǎn)品,等于是把刀架在谷歌脖子上了。
果然,谷歌這次不甘示弱,放出了個大的。
從今天開始,在Gemini的加持下,谷歌搜索會徹底變樣。
在搜索框下,會出現(xiàn)一個為你量身定做的AI總結(jié)。
注意,它并不簡單地將所有內(nèi)容拼湊在一起,而是幫你把活都干了!
你的問題是什么樣,它就會幫你做規(guī)劃,展示出若干個卡片,讓搜索信息以鮮明的方式被呈現(xiàn)出來。
這次AI Overview即將發(fā)布的另一個重磅功能,就是多步驟推理。
它能將用戶輸入的一個復(fù)雜問題分解成多部分,確定需要解決哪些問題,以及用什么順序解決。
因此,以前可能要花幾分鐘甚至幾個小時的研究,現(xiàn)在幾秒鐘內(nèi)就可以完成!因為它將十個問題合而為一。
比如,如果想找到波士頓最好的瑜伽或普拉提工作室,它會直接搜出來結(jié)果,然后幫你整理好情況介紹和工作時間。
只要一次搜索,所有需要的信息就自動呈現(xiàn)出來。
在下面這個例子中,你可以要求谷歌提供一個三天的膳食計劃。
這些食譜被從整個網(wǎng)絡(luò)整合出來,清晰又全面。
而且,我們還可以用視頻去搜索了!
比如,該怎么修這個唱片機?
以前,我們需要進行一堆搜索,確定它的牌子、型號。
現(xiàn)在,直接拍一個視頻丟給谷歌,然后直接開口問:它的這個毛病是什么原因?
谷歌用AI Overview,給出了最全面的信息。
從此,在谷歌搜索中,你需要做的,就是簡單的「張嘴問」。
三、對標(biāo)GPT-4o,Project Astra打造通用AI智能體
我們已經(jīng)看到,新模型GPT-4o賦予了ChatGPT強大的實時對話能力,讓Her走進現(xiàn)實。
全新AI語音助手,是通往AGI的下一個未來。
對標(biāo)OpenAI,谷歌DeepMind今天首次對外公布了「通用AI智能體」新項目——Astra。
其實,昨天谷歌放出了一個demo,已經(jīng)讓所有人對Astra項目有了初步的了解。
而今天,現(xiàn)場的演示更加炸裂。
網(wǎng)友稱,這是谷歌I/O大會中,自己最喜歡的part。
不僅有Astra強大的對答如流的能力,還首次展示了「谷歌AR原型眼鏡」配上AI的震撼演示。
Astra兩部分演示,每段視頻均為單次拍攝、實時錄制完成
召喚Gemini之后,測試者提出問題,「當(dāng)你看到會發(fā)出聲音的東西時,告訴我」。
它回答道,「我看到一個揚聲器,它可能會發(fā)聲」。
接下來,測試者用紅色剪頭指向揚聲器的頂部,再次問道,「這個揚聲器的部件叫什么」?
Gemini準(zhǔn)確理解指令,并答出「這是高音揚聲器,能產(chǎn)生高頻的聲音」。
然后,對著桌上一桶彩色蠟筆,讓Gemini就展示的物體,給出了「押頭韻」的創(chuàng)意——
「Creative crayons color cheerfully. They certainly craft colorful creations.」
Gemini以「c」音重復(fù)開頭,生動形象地描繪了用蠟筆歡快涂色,可以創(chuàng)作出許多絢麗多彩作品的場景。
而更讓你意想不到的是,它還可以讀懂代碼。
甚至都不是截屏,而是用攝像頭懟著電腦屏幕拍,然后問Gemini「這部分代碼是做什么的」?
Gemini看了一眼,就立即給出回答:「此段代碼定義了加密和解密函數(shù)。它似乎使用AES CBC加密,根據(jù)密鑰和初始化向量對數(shù)據(jù)進行編碼和解碼」。
再將鏡頭移向窗外,「我在哪個街區(qū)」?
Gemini便回答道,「這似乎是倫敦國王十字區(qū),這里以火車站和交通樞紐而聞名」。
眼鏡找不到了?
直接可以問Gemini,「你記得在哪里見過我的眼鏡」?
它立刻回想剛剛見到的場景,「是的,我記得。你的眼鏡就在桌子上,旁邊有一個紅蘋果」。
要知道,剛剛這個問題并沒有向它提過,Astra完全是憑自己的視覺記憶回答出來的,簡直成精了。
而Astra的這番表現(xiàn),直接讓全場倒吸一口涼氣,發(fā)出驚呼。
谷歌原型AR眼鏡首現(xiàn)身
接下來的演示,更炫酷了。
剛剛找到的眼鏡,竟是谷歌的原型AR眼鏡!配合上強大的Gemini模型,即將開辟全新的應(yīng)用。
測試者走到白板前,看向一個「服務(wù)器」的構(gòu)建示意圖,然后問道,「我應(yīng)該怎樣做能使這個系統(tǒng)更快」?
Gemini表示,「在服務(wù)器和數(shù)據(jù)庫之間,添加緩存可以提高速度」。
再比如,「看到如下圖,會讓你想起什么」?
——薛定諤的貓!
「在幫我給這對家伙,起一個二重唱樂隊名字」。
——Golden Stripes
大會上,Hassabis稱,「一直以來,谷歌希望構(gòu)建一個能在日常生活中真正有所幫助的通用AI智能體。如今,這一愿景成為現(xiàn)實,可以追溯到很多年前。這也是谷歌從頭開始打造多模態(tài)Gemini的主要原因」。
真正的通用AI智能體,必須像人類一樣,對復(fù)雜、動態(tài)的世界做出理解和響應(yīng)。
它需要接受和記住所看到的內(nèi)容,以便理解上下文采取行動,并且具備主動性和個性化。
甚至,你可以與其如真人般絲滑交流,沒有任何滯后或延遲。
為了打造這款全能AI智能體,谷歌DeepMind克服了很困難的工程挑戰(zhàn)——將AI響應(yīng)時間降低至對話水平。
具體來說,谷歌團隊在Gemini的基礎(chǔ)上,開發(fā)了能夠持續(xù)編碼視頻幀的智能體。
然后,將視頻和語音多模態(tài)輸入,整合到事件時間軸中并緩存,以便實現(xiàn)AI智能體高效召回,更快處理信息。
此外,谷歌還使用廣泛的語調(diào)變化,增強了語音輸出效果。
基于這些努力,Astra能夠更好理解上下文,在交談中可以快速做出反應(yīng),讓互動的節(jié)奏和質(zhì)量感覺更加自然。
有網(wǎng)友稱,「谷歌的這個Astra項目絕對是游戲規(guī)則的改變者,我們現(xiàn)在生活在一個由個人AI助手組成的世界,聊天機器人現(xiàn)在已經(jīng)過時了。它可以實時地看、說、聽,幾乎沒有延遲」
當(dāng)然,這次演示中,谷歌偷偷推出的AR硬件,也成為網(wǎng)友們的關(guān)注點。
谷歌科學(xué)家剛剛放出了,用Astra看谷歌I/O大會的演示,可以自己感受下。
四、圖像、音樂、視頻,面面俱到
與此同時,谷歌大會上再次推出了一系列關(guān)于「生成式媒體工具」的最新進展。
其中,包括圖像、音樂,以及視頻模型。
1. 最強AI文生圖Imagen 3
首先,AI文本到圖像生成模型Imagen 3迎來重磅升級。
比起上一代,Imagen 3能生成更多細節(jié)、光影豐富,且干擾偽影更少的圖像。
新模型對提示的理解能力,得到顯著提升,可以從較長的提示中,捕獲細節(jié)。
如下圖中,對狼的特征,背景顏色,畫質(zhì)質(zhì)量等要求,Imagen 3一致地呈現(xiàn)了出來。
另外,Imagen 3可以生成視覺豐富、高質(zhì)量的圖像,有良好光照和構(gòu)圖。
它可以準(zhǔn)確地渲染小細節(jié),比如人手上的細微皺紋,以及復(fù)雜的紋理。
下圖中,毛絨大象清晰的編織紋理,還有光照,效果鮮明。
Imagen 3還可以在更長的提示中,加入一些微小的細節(jié),比如「野花」、「藍色的小鳥」…
谷歌還極大地改進了Imagen 3的文本渲染能力。
如下圖片提示,「由各種顏色的羽毛組成的「光」字,黑色背景」,然后Imagen 3生成了漂亮的字體。
以下是官方給出的更多演示demo:
2. 視頻生成模型Veo,1080p超過60秒
這次谷歌發(fā)布的視頻模型Veo,可以看作是對OpenAI Sora的正面迎戰(zhàn)了。
可以看出,Veo生成的視頻不僅真實,而且在光線、構(gòu)圖等方面具有驚人的電影感。
Veo的推出建立在DeepMind過去一年各種開創(chuàng)性成果的基礎(chǔ)上,包括GQN、Phenaki、Walt、VideoPoet、Lumiere等等。
谷歌結(jié)合了這些成果中最好的架構(gòu)和技術(shù),提高了一致性、質(zhì)量和分辨率。
Veo具備1080p的高質(zhì)量,用戶提示可以是文本、圖像、視頻等各種格式,還能捕捉到其中關(guān)于視覺效果和影像風(fēng)格的各種細節(jié)描述。
通過點擊「擴展」按鈕,用戶就可以持續(xù)增加視頻的時長,最終,它的時長已經(jīng)超過Sora達到了1分10秒。
可以看到,在下面這個視頻中,汽車的形狀與周圍環(huán)境始終保持一致。
有這種專業(yè)級的生成效果,電影制作人可以直接用Veo來協(xié)助創(chuàng)作了。
從此,每個人都可以成為導(dǎo)演,也應(yīng)該成為導(dǎo)演。
好消息是,Veo已經(jīng)開始在官網(wǎng)開放試用了。此外,團隊還開發(fā)了實驗性工具VideoFX搭載Veo模型。
申請入口:https://aitestkitchen.withgoogle.com/tools/video-fx
在谷歌官博中,給出了Veo更多演示,還特別強調(diào)了均是AI生成,未經(jīng)過修改:
3. Music AI Sandbox
在音樂方面,谷歌和Youtube一起構(gòu)建了Music AI Sandbox。
輸入一段旋律,它就可以進行風(fēng)格遷移,幫助藝術(shù)家們快速實現(xiàn)自己的想法和創(chuàng)意。
為此,谷歌還特意邀請了許多音樂家、詞曲作者和制作人來測試。
他們驚喜地發(fā)現(xiàn),使用這個新的AI音樂工具,他們居然做出了自己從未想到的音樂!
比如這位音樂制作人,希望把樂曲中的這段旋律變一個風(fēng)格。
Music AI Sandbox的產(chǎn)出,讓他激動地當(dāng)場跳起來。
他表示,作為一個嘻哈音樂制作人,AI帶給他的嘗試空間,是無止境的。
4. Demis Hassabis:我在思考智能的本質(zhì)
谷歌DeepMind負責(zé)人Hassabis表示,自己從小玩國際象棋時,就一直在思考智能的本質(zhì)是什么。
他深信,如果我們能以負責(zé)任的方式建造AGI,影響將是深刻的。
谷歌DeepMind自去年成立以來成績斐然。而最近的大成就,就是幾乎可以預(yù)測所有生命分子結(jié)構(gòu)和相互作用的AlphaFold 3了。
五、原生多模態(tài)Gemini App
谷歌還打造出了一款Gemini原生多模態(tài)應(yīng)用,可以同時文本、音頻、視頻內(nèi)容。
一直以來,谷歌希望能夠打造一個有用的個人AI助理。
Gemini App,正重新定義我們的交互方式。
為了讓我們與Gemini交互更自然,谷歌發(fā)布了Gemini Live。
有了它,你可以在給朋友發(fā)消息的同一個程序中,還能與Gemini聊天。
你甚至可以控制自己的說話節(jié)奏,或者隨時打斷Gemini回答,如同與真人交流一樣。
比如,你正在為一場面試做準(zhǔn)備,只需要進入Live,讓Gemini陪你一起做準(zhǔn)備。
Gemini可以與你進行模擬面試排練,甚至在與潛在雇主交談時應(yīng)該突出哪些技能,還能提供建議。
谷歌表示,今年晚些時候,會推出攝像頭模式,可以以周圍環(huán)境與Gemini實現(xiàn)對話。
與此同時,谷歌還推出了根據(jù)個人需求自定義的Gemini專家——Gems。
它可以是你的健身教練、瑜伽伙伴,也可以是你的寫作創(chuàng)意導(dǎo)師、編程伙伴等等。
接下來,谷歌還展示了通過規(guī)劃,讓我們?nèi)绾坞xAI助手更近一步。
比如,一次旅行的規(guī)劃,需要涉及地理、時間、天氣等諸多因素,需要AI能夠做出優(yōu)先順序和決策的能力。
Gemini Advanced的全新旅行規(guī)劃,可以將模型推理和智慧融為一體,為人類更好服務(wù)。
六、Ask Photos新功能
在Gemini的加持下,谷歌還會推出Ask Photos的新功能。
比如,如果付停車費時忘了自己的車牌號,就可以直接詢問自己的車牌照片是哪個,不需要翻閱手機里的大量照片了。
在比如,你可以問它女兒是什么時候?qū)W會游泳的?她的游泳是怎么進步的?
Gemini會識別眾多照片中的不同場景,將所有相關(guān)內(nèi)容匯總。
七、Gemini 1.5 Flash:更小,更快,200萬token
根據(jù)某些Gemini 1.5 Pro用戶的反饋,一些程序需要更低的延遲和服務(wù)成本。
針對這一點,谷歌發(fā)布了Gemini 1.5 Flash。
跟Pro比,F(xiàn)lash是一個更輕量級的模型,專為那些對響應(yīng)速度要求極高的特定或頻繁任務(wù)優(yōu)化。
并且,它同樣具有多模態(tài)、1M tokens長上下文的特點,只不過實現(xiàn)了輕量化、低延遲、高效推理,每百萬個token的價格僅是Pro版的二十分之一。
今天起,Gemini 1.5 Flash在Google AI Studio和Vertex AI中就可用了,開發(fā)者可以注冊申請兩百萬token的內(nèi)測版。
此外,為了方便開發(fā)者,谷歌還對Gemini的API功能進行了三項優(yōu)化——視頻幀提取、并行函數(shù)調(diào)用和上下文緩存。
八、第六代TPU Trillium,4.7倍性能提升
在背后給這些技術(shù)進步提供基礎(chǔ)設(shè)施的,就是谷歌的TPU。
簡單來說,相較于TPU v5e,第六代Trillium TPU在性能上實現(xiàn)了高達4.7倍的提升,并在能效上提升了超過67%。
為了實現(xiàn)這一飛躍,谷歌增大了矩陣乘法單元(MXUs)的規(guī)模并提升了時鐘速度。
并為Trillium配備了第三代SparseCore——專門用于處理高級排序和推薦工作負載中常見的超大嵌入的加速器。
在這里,SparseCores可以通過從TensorCores策略性地卸載隨機和細粒度訪問,有效加速了重嵌入型工作負載。
與此同時,谷歌還將高帶寬存儲器(HBM)的容量和帶寬翻倍,并將芯片間互連(ICI)的帶寬提升了一倍。
由此,Trillium可以支持更加復(fù)雜的模型,擁有更多的權(quán)重和更大的鍵值緩存,并大幅縮短了大模型的訓(xùn)練時間和響應(yīng)延遲。
在一個高帶寬、低延遲的Pod中,Trillium可以擴展至256個TPU。
而通過多切片技術(shù)和Titanium智能處理單元(IPU),Trillium還可以進一步擴展——通過數(shù)百個Pod,連接數(shù)以萬計的芯片,并在一個多千兆位每秒的數(shù)據(jù)中心網(wǎng)絡(luò)支持下,組成一個超大規(guī)模的超級計算機。
九、更多的開源模型
最后,谷歌還發(fā)布了自家首個視覺-語言開源模型——PaliGemma,專門針對圖像標(biāo)注、視覺問答及其他圖像標(biāo)簽化任務(wù)進行了優(yōu)化。
不僅如此,谷歌還將在6月推出規(guī)模更大的開源模型——Gemma 2 27B。
在性能方面,全新的Gemma 27B不僅超越了規(guī)模大了2倍還多的模型,而且還能在GPU或單個TPU主機上高效運行。
參考資料:
https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/
https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus?e=48754805
https://www.youtube.com/watch?v=XEzRZ35urlk
編輯:編輯部
來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯(lián)網(wǎng)+”邁向“智能+”。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
啥都好,就是請求速度太慢
哎,感覺現(xiàn)在我們國家的科技環(huán)境,就像之前清朝閉關(guān)鎖國一樣