I/O 2024,Google 吹響通用 AI 反擊號(hào)角

0 評(píng)論 653 瀏覽 1 收藏 16 分鐘

在今年的Google I/O上,有哪些更新和動(dòng)態(tài)值得我們關(guān)注?起碼在發(fā)布會(huì)之后,我們可以看到,Google在AI領(lǐng)域的第一梯隊(duì)位置再一次得到了穩(wěn)固。

有了 24 小時(shí)前 OpenAI 用 GPT-4o 帶來(lái)的炸場(chǎng)之后,今年的 Google I/O 還未開(kāi)始,似乎就被架在了一個(gè)相當(dāng)尷尬的地位,即使每個(gè)人都知道 Google 將發(fā)布足夠多的新 AI 內(nèi)容,但有了 GPT-4o 的珠玉在前,即使是 Google 也不得不面臨巨大的壓力。

這種奇怪的氣氛貫穿了今年 Google I/O 主題演講始終,除了 CEO 皮查伊演講少了很多自信、多了一些此前少見(jiàn)的不自然感與口誤之外,今年 Google I/O 還貢獻(xiàn)了歷年最奇怪的暖場(chǎng)活動(dòng),是以一次 AI 工具的翻車為開(kāi)場(chǎng):一位從舞臺(tái)上的茶杯中鉆出的 DJ,在臺(tái)上使用 Google 內(nèi)部開(kāi)發(fā)的一款 AI DJ 小工具 —— MusicFX DJ,在舞臺(tái)上現(xiàn)場(chǎng)用隨機(jī)生成的關(guān)鍵詞,來(lái)創(chuàng)造出一首曲目。

雖然創(chuàng)作出的曲調(diào)很糟糕,甚至現(xiàn)場(chǎng)效果還有點(diǎn)魔幻,在社交媒體上遭到大量猝不及防的開(kāi)發(fā)者一致吐槽,但好在 Google 還是用兩個(gè)小時(shí)的時(shí)間,給這個(gè)世界再一次帶來(lái)了足夠多的驚喜 —— 以及對(duì) OpenAI 與微軟的反擊。

開(kāi)場(chǎng)首先,皮查伊先帶我們回顧了過(guò)去一年 Google AI 主打產(chǎn)品 —— Gemini 的主要進(jìn)展,如果說(shuō)全年 I/O 全場(chǎng)出現(xiàn)頻率最高的詞是 AI 的話,今年毫無(wú)意外將變成 Gemini;首先是 Gemini Advanced 在發(fā)布三個(gè)月之后就已經(jīng)獲得了超過(guò)一百萬(wàn)用戶;以及兩個(gè)月之前發(fā)布、最高支持一百萬(wàn) Token 上下文識(shí)別(通行計(jì)算方法中約等于 50 萬(wàn)中文字符)。的 Gemini 1.5 Pro,今天起將面向全球用戶正式推送。

不僅如此,Gemini 1.5 Pro 還從原本的一百萬(wàn) Token 上下文升級(jí)至兩百萬(wàn) Token 上下文識(shí)別。這意味著在多模態(tài)處理中能處理超過(guò)三萬(wàn)行代碼,或是超過(guò)一小時(shí)的視頻文件。

在介紹了 Gemini 本身之后,就到了 Gemini 真正的長(zhǎng)處 —— 應(yīng)用內(nèi)整合體驗(yàn)中,皮查伊先是演示了整合在相冊(cè)中的功能,在停車并給車拍了照片之后,當(dāng)你找不到停車的位置,可以直接問(wèn) Gemini “我的車在哪”,它就能幫你自動(dòng)識(shí)別相關(guān)照片中的信息,提示你車停在了哪里。

這個(gè)功能被稱為。Ask Photos,將于今年正式發(fā)布。

在 Google 辦公套件中,如今也迎來(lái)了 Gemini 更深度的整合,不僅能在 Gmail 中生成線上會(huì)議紀(jì)要、在所有郵件中提取關(guān)鍵信息。還能與 Google 表格聯(lián)動(dòng),自動(dòng)整理郵件中包括的表格文件,甚至是生成一個(gè)數(shù)據(jù)分析表格。

為了提升用戶日常處理工作內(nèi)容的辦公效率,Google 還將 Gemini 的功能包裝成了一個(gè) AI 員工—— AI Teammate,來(lái)充當(dāng)你工作中的一個(gè)人工智能助理,幫你整理各種信息并借助大模型來(lái)實(shí)現(xiàn)更智能的反饋,例如從郵件中提煉信息,甚至是會(huì)議錄音中的關(guān)鍵信息。

除了辦公套件之外 去年作為探索項(xiàng)目登場(chǎng)的 Notebook LM 今年也公布了新進(jìn)展:作為 Google 生成式 AI 直面教育應(yīng)用場(chǎng)景的項(xiàng)目,這被外界看作是對(duì) OpenAI”撞車“最直接的回應(yīng)。

在現(xiàn)場(chǎng)的演示中,NotebookLM 不僅能很好地充當(dāng)一個(gè)老師的身份、講述一組簡(jiǎn)單的物理課程,還能模擬兩個(gè)演講者,生成一個(gè)類似對(duì)話的講解內(nèi)容。在用戶提問(wèn)“你能舉個(gè)例子嗎”這樣的問(wèn)題時(shí),實(shí)時(shí)給出一個(gè)準(zhǔn)確的回答。讓你能夠更準(zhǔn)確地掌握物理原理中的細(xì)節(jié)。

Google 同時(shí)還針對(duì)去年發(fā)布、在 Android 手機(jī)上實(shí)現(xiàn)畫圈搜索功能的“Circle to Search”功能加入了更多教育相關(guān)的使用場(chǎng)景:現(xiàn)在這個(gè)功能已經(jīng)支持識(shí)別畫面中的數(shù)學(xué)題以及符號(hào)公示等復(fù)雜的內(nèi)容。

在 AI 行業(yè)早期,除了 OpenAI 之外,還存在著另外一個(gè)聚集了業(yè)界大量人才的組織 —— 那就是如今已經(jīng)被 Google 收購(gòu)并整合的 DeepMind。

但在過(guò)去十余年時(shí)間中,DeepMind 長(zhǎng)期以一種低調(diào)的印象示人:以研究成果定勝負(fù),而不是像 OpenAI 管理層一樣,在各種演講中拋頭露面發(fā)表言論。

但在今年 I/O 上,DeepMind 創(chuàng)始人哈薩比斯第一次出現(xiàn)在 Google I/O 舞臺(tái)上,來(lái)給金主“救火”,Alphabet 內(nèi)部對(duì) AI 的緊迫性可見(jiàn)一斑。

這位 AI 行業(yè)舉足輕重的大牛上臺(tái),卻看似輕飄飄地發(fā)布了一個(gè)針對(duì)端側(cè)的模型 —— Gemini 1.5 Flash,甚至現(xiàn)場(chǎng)觀眾都有些沒(méi)反應(yīng)過(guò)來(lái)他是在賣什么關(guān)子,直到哈薩比斯說(shuō)出他們的最終目的 —— 打造通用強(qiáng)人工智能。

實(shí)現(xiàn)這個(gè)目標(biāo)的具體步驟,就是哈薩比斯介紹的新項(xiàng)目 —— Project Astra,探索通用人工智能如何在日常生活中為我們提供真正日常生活所必須的幫助。

作為對(duì)這個(gè)問(wèn)題的直接回應(yīng),哈薩比斯現(xiàn)場(chǎng)展示了 Astra 的一個(gè)使用視頻:操作者以智能手機(jī)為媒介,讓大模型實(shí)時(shí)收集環(huán)境中的各種信息,并在圍繞著辦公室轉(zhuǎn)了一圈后突然提問(wèn):你記得眼鏡在哪里嗎“。

在正常的環(huán)境中,即使是兩個(gè)正常人類之間對(duì)話,也可能會(huì)忽視掉這些細(xì)節(jié),但演示中的 AI 卻精準(zhǔn)地從眾多環(huán)境信息中捕捉到了眼鏡的位置,并給出了正確的方位提示。這種強(qiáng)悍的通用語(yǔ)言與環(huán)境理解能力將現(xiàn)場(chǎng)氣氛推向了最高潮,也再一次向外界展示了 Deepmind 作為傳統(tǒng) AI 強(qiáng)手實(shí)力的冰山一角。

哈薩比斯還特別提到,這些演示項(xiàng)目并非刻意實(shí)現(xiàn)、“僅供參考”的演示效果,兩個(gè)短片中的所有實(shí)現(xiàn)效果都是一次完成。這意味著當(dāng)前 Project Astra 已經(jīng)能非常流暢地實(shí)現(xiàn)這些效果。

除了對(duì)通用人工智能的探索之外,哈薩比斯還介紹了 Deepmind 在多模態(tài)領(lǐng)域的新進(jìn)展:將在圖像、音頻以及視頻三個(gè)主要內(nèi)容領(lǐng)域全方位出擊。分別是能夠生成超過(guò) 60 秒、畫質(zhì)為 1080p 的視頻片段的視覺(jué)模型 Voe、文生圖模型 Imagen 3、以及面向?qū)I(yè)音樂(lè)創(chuàng)作者的音樂(lè)合成工具 Music AI Sandbox。

TPU 硬件的更新也是 Google I/O 主題眼鏡中的保留項(xiàng)目,每次伴隨著 AI 新技術(shù)發(fā)布,TPU 作為驅(qū)動(dòng)軟件的硬件引擎都會(huì)隨著更新迭代。

這次主題演講中 Google 發(fā)布了代號(hào)為 Trilium 的第六代 TPU 硬件,計(jì)算能力相比前代提升 4.7 倍,預(yù)計(jì)將在 2024 年年底面向用戶推出,本次發(fā)布會(huì)中出現(xiàn)的 Veo、Gemini 1.5 Pro 等幾乎所有產(chǎn)品,都是在這些新硬件上計(jì)算而來(lái)。

Android 也不能免俗,將 AI 功能更新作為今年介紹的重點(diǎn)。尤其是 Gemini 在 Android 系統(tǒng)中更深度的整合。

實(shí)際上今年的 Android 15 當(dāng)然也不只有 AI 功能,但 Google 為了給 AI 功能讓路,在首日的主題演講中介紹的都是 Android 15 中與 AI 相關(guān)的動(dòng)態(tài),剩余的內(nèi)容被擠到了次日的分會(huì)場(chǎng)演講中。

Gemini 作為一個(gè)獨(dú)立 App 在 Android 端已經(jīng)存在一段時(shí)間了,這次 Google 終于進(jìn)一步發(fā)揮了“主場(chǎng)”優(yōu)勢(shì),將 Gemini 進(jìn)一步整合進(jìn)操作系統(tǒng)中:現(xiàn)在在 Gemini 對(duì)話中生成的圖像可以被直接拖拽到其他應(yīng)用中使用。

這次 Gemini 在 Android 上的最新進(jìn)展是 Gemini Live,主打使用語(yǔ)音的雙向流暢對(duì)話體驗(yàn),在對(duì)話過(guò)程中你甚至可以像現(xiàn)實(shí)與真人對(duì)話一樣,通過(guò)打斷對(duì)話、提出新問(wèn)題的方式來(lái)更高效的溝通。Google 同時(shí)預(yù)告基于 Project Astra 實(shí)現(xiàn)的攝像視頻識(shí)別功能也將在今年年內(nèi)發(fā)布。

這個(gè)功能實(shí)現(xiàn)的原理,是將視頻內(nèi)容逐幀拆解并交給 Gemini 識(shí)別,在效果上實(shí)現(xiàn)接近“理解世界”的效果。例如當(dāng)你不會(huì)用某款相機(jī)時(shí),用手機(jī)鏡頭對(duì)準(zhǔn)相機(jī)并提問(wèn),Gemini 就能夠從畫面中識(shí)別出相機(jī)的型號(hào),并根據(jù)你的問(wèn)題,搜索相關(guān)內(nèi)容給出使用教程。

另一個(gè)重要功能更新是 Android 15 中的 Gemini 支持了 YouTube 視頻內(nèi)容識(shí)別,Gemini 在視頻播放界面可以直接提取視頻相關(guān)的信息,并回答用戶各種關(guān)于視頻的問(wèn)題,甚至是生成視頻內(nèi)容摘要。YouTube 上數(shù)十億個(gè)視頻都可以使用這個(gè)功能。

除了這些聯(lián)網(wǎng)功能更新,去年發(fā)布的、完全基于端側(cè)算力實(shí)現(xiàn)的 Gemini Nano 則是更多本地功能的基礎(chǔ);基于本地模型實(shí)現(xiàn)的功能不僅能更快速地實(shí)現(xiàn)諸如畫面內(nèi)容識(shí)別等無(wú)障礙功能,還能在更多隱私需求更高的應(yīng)用場(chǎng)景中,比如這次新發(fā)布的基于本地語(yǔ)音模型、通過(guò)對(duì)話內(nèi)容,判斷出對(duì)方是否可能是詐騙電話。

通過(guò) Gemini Nano 模型本地實(shí)時(shí)處理,在檢測(cè)到諸如“銀行”“轉(zhuǎn)賬”等關(guān)鍵字眼以及上下文之后,手機(jī)的通話界面會(huì)彈出一個(gè)“這可能是詐騙電話”的提示,并給出諸如“銀行不會(huì)要求你通過(guò)電話轉(zhuǎn)賬”這種可能的理由。

毫無(wú)疑問(wèn),在智能手機(jī)端,端側(cè)模型的潛力還有巨大的挖掘空間,這次模型本身能力也得到了加強(qiáng),Gemini Nano 在原本僅支持文本識(shí)別的基礎(chǔ)上,將于今年內(nèi)增加視覺(jué)、聽(tīng)覺(jué)與口語(yǔ)的識(shí)別支持。

去年在 OpenAI 改變世界之后,Google 也只是被改變的一部分:2023 I/O 中即使充滿了各種 AI,也很容易給人一種“湊數(shù)”的觀感:以至于“演講中出現(xiàn)了多少次 AI”的惡搞視頻,反而在主題演講結(jié)束后,成為社交媒體上被瘋傳最多的內(nèi)容。

到了 2024,即使 OpenAI 還想在復(fù)刻一把“偷襲”,但 Google 這次的準(zhǔn)備顯然更加充足自信,甚至 Google 官方也還玩了去年的梗,主動(dòng)問(wèn)了觀眾“我們今年說(shuō)了多少次 AI”??

對(duì)于這個(gè)問(wèn)題,皮查伊的回答是將演講的文稿直接扔給 Gemini,讓它提取文本中內(nèi)容來(lái)回答,答案是 120 次,然后在說(shuō)出這句話的同時(shí),數(shù)字變成了 121。

這個(gè)小小的幽默其實(shí)也揭示了 Google 對(duì) AI 的開(kāi)放態(tài)度:任何問(wèn)題都嘗試用 AI 來(lái)回答。皮查伊還重新強(qiáng)調(diào)了 Google 在 AI 領(lǐng)域的目標(biāo)”整理世界所有的信息為你所用“,Google 在軟件側(cè)的所有軟件更新幾乎都是在踐行這一目標(biāo)。

從這一點(diǎn)來(lái)講,有著廣泛應(yīng)用生態(tài)與用戶的 Google 生態(tài),仍然有著巨大的先手優(yōu)勢(shì)。加上本次 I/O 中展示的既有當(dāng)下就能立即使用到的 Gemini 更新,也有類似 Project Astra 這樣極具野心的前沿探索項(xiàng)目,一系列組合拳之下,Google 在 AI 領(lǐng)域的第一梯隊(duì)位置再一次得到了穩(wěn)固。

至少?gòu)倪@次 I/O 我們看到新內(nèi)容的分量來(lái)講,Google 仍然是 OpenAI 最強(qiáng)力的競(jìng)爭(zhēng)對(duì)手,即使它曾經(jīng)短暫地落于下風(fēng)。

記者:張勇毅,編輯:高宇雷

來(lái)源公眾號(hào):電廠(ID:wonder-capsule),探索科技公司的未知,為你充電。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @電廠 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Pixabay,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!