剛發(fā)布就被對(duì)標(biāo)Sora,這個(gè)國(guó)產(chǎn)模型來(lái)頭這么大?
在AI視頻生成領(lǐng)域,國(guó)產(chǎn)模型Vidu以其驚人的真實(shí)度和創(chuàng)新能力引起了廣泛關(guān)注。Vidu能夠根據(jù)簡(jiǎn)短的提示詞生成長(zhǎng)達(dá)16秒的逼真視頻,其效果足以媲美Sora,甚至在某些方面超越了它。讓我們跟隨作者的視角,一起來(lái)看看吧。
前幾天,世超上網(wǎng)沖浪的時(shí)候,刷到了幾個(gè) AI 視頻片段。
大船駛來(lái)的壓迫感,被風(fēng)吹起的發(fā)絲和絲巾,太空人直接走進(jìn)現(xiàn)實(shí)菜園。。。一幕幕把我看得是一愣一愣的。
真實(shí)度也是一絕,在湖邊隨著鏡頭移動(dòng),不僅光線跟著變化,連天空、樹(shù)木的變化都跟咱肉眼看到的沒(méi)差。
要不是右下角有水印,我還差點(diǎn)以為是 Sora 的視頻又上新了。
所以這次的主角不是 Sora ,也不是各位差友熟知的 Pika 、 Runway 那幾個(gè) Sora 競(jìng)品,而是初出茅廬的國(guó)產(chǎn)視頻大模型 Vidu 。
咱看到的那些視頻,就是前幾天, Vidu 在中關(guān)村論壇的人工智能主題日上公布的。
它最長(zhǎng)能生成16秒,一句“木頭玩具船在地毯上航行”的提示詞,就能生成下面這長(zhǎng)長(zhǎng)的一段,一鏡到底的絲滑程度,怕是路過(guò)的謀子導(dǎo)演看了都會(huì)點(diǎn)贊。
Sora號(hào)稱能真實(shí)模擬物理世界的拿手戲, Vidu 照樣也能實(shí)現(xiàn)。
讓它生成一段“汽車加速駛過(guò)森林里鄉(xiāng)間小路”的視頻,像是樹(shù)林縫隙透過(guò)的陽(yáng)光,后輪揚(yáng)起的灰塵,都很符合咱們的日常認(rèn)知。
而且 Vidu 的想象力比咱人還要豐富,畫室里的一艘船駛向鏡頭的場(chǎng)景,它分分鐘就能給“拍”出來(lái),看這效果,不知道該有多少動(dòng)效師瑟瑟發(fā)抖了。
甚至在某些提示詞下, Vidu 的理解能力比 Sora 還強(qiáng),比如“鏡頭繞著電視旋轉(zhuǎn)”的提示詞, Sora 壓根兒就沒(méi) get 到旋轉(zhuǎn)的意思,反而是 Vidu 能輕松理解。
有一說(shuō)一,在看完 Vidu 的這些視頻后,世超是真覺(jué)得它是目前市面上,唯一一個(gè)能在畫面效果上和 Sora 拼一拼的模型。
雖然現(xiàn)在 16 秒的 Vidu 在時(shí)長(zhǎng)上還比不上 60秒的 Sora ,但它的進(jìn)步也確實(shí)是肉眼可見(jiàn)的快,據(jù)極客公園消息,上個(gè)月, Vidu 在內(nèi)部只能生成 8 秒的視頻,上上上個(gè)月,還只能生成 4 秒的視頻。
反正媒體們都把 Vidu 比作是“ Sora 級(jí)視頻大模型”,網(wǎng)友們也都在評(píng)論區(qū)喊話催他們趕緊開(kāi)放內(nèi)測(cè)。
不過(guò)這里面世超更好奇的是,咱之前壓根兒都沒(méi)聽(tīng)說(shuō)過(guò) Vidu ,怎么突然平地一聲雷,搞出了這么大的陣仗?
我們也順藤摸瓜找了找資料,發(fā)現(xiàn)Vidu身上,值得說(shuō)道的東西還挺多,甚至仔細(xì)咂摸下,還能從Sora身上找出點(diǎn)Vidu的影子來(lái)(世超可沒(méi)說(shuō)反)。
它背后是一家名叫生數(shù)科技的公司,別看這個(gè)公司才剛滿一周歲,但它可是在娘胎里就開(kāi)始攢勁兒了。因?yàn)樗挠H媽,是清華系AI 企業(yè)瑞萊智慧,背后的研究團(tuán)隊(duì),幾乎全是這里面的人。
而在成立生數(shù)科技之前,團(tuán)隊(duì)就已經(jīng)把視頻大模型研究得很深入了。
尤其是在圖像生成這塊很火的擴(kuò)散(Diffusion)模型,他們算是業(yè)內(nèi)第一批研究這個(gè)模型的,整出來(lái)的論文也在 ICML 、 NeurIPS 、 ICLR 各種頂會(huì)發(fā)了個(gè)遍。
正是因?yàn)橛羞@么好的底子,早在2022年9月的時(shí)候,團(tuán)隊(duì)就找到了做 Vidu 的靈感,就是下面這篇論文。
世超讓AI幫咱解讀了下,大概的思路就是,擴(kuò)散模型在生成圖像這塊挺強(qiáng),而大語(yǔ)言模型里用的Transformer有個(gè)規(guī)模(Scale)效應(yīng),參數(shù)堆得越多,性能就越好。團(tuán)隊(duì)就想著,能不能把這兩個(gè)的優(yōu)點(diǎn)結(jié)合一下,整個(gè)融合架構(gòu),提升圖像生成的質(zhì)量。
于是他們轉(zhuǎn)頭把擴(kuò)散模型里面的 U-Net 給換成 Transformer ,還起了個(gè)名字叫 U-ViT ( Vision Transformers )。結(jié)果試下來(lái)發(fā)現(xiàn)這么一結(jié)合還真有用,光是相同大小的 U-ViT ,性能就比 U-Net 強(qiáng)了。
那好嘛,既然這條路走得通,他們也順勢(shì)把技術(shù)路線定在了 U-ViT 上。
然鵝。。。在團(tuán)隊(duì)悄悄醞釀 Vidu 的時(shí)候,大洋彼岸的UC伯克利的一個(gè)研究,卻讓 OpenAI 的 Sora 捷足先登了。
就在清華小分隊(duì)提交論文的兩個(gè)月后,UC伯克利也在預(yù)印平臺(tái)ArXiv上提交他們的論文了,一樣說(shuō)要把Transformers揉在擴(kuò)散模型里面,只不過(guò)名字起的更直白了點(diǎn),叫DiT( Diffusion Transformers )。
看著是不是挺眼熟,沒(méi)錯(cuò), OpenAI 的 Sora 模型,用的就是伯克利的 DiT 技術(shù)路線。
但因?yàn)榍迦A小分隊(duì)早發(fā)了兩個(gè)月,當(dāng)年的計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2023還以“缺乏創(chuàng)新”的由頭,拒了 Sora 的 DiT ,收錄了 U-ViT 。
而且早在2023年年初的時(shí)候,清華小分隊(duì)還用U-ViT,訓(xùn)練出了一個(gè)近10億參數(shù)量的開(kāi)源大模型 UniDiffuser 。
算是第一個(gè)用行動(dòng)證明了,融合架構(gòu)也遵守 Scaling Law 這一套規(guī)則,也就是說(shuō)隨著計(jì)算量、參數(shù)量越來(lái)越大,模型的性能就會(huì)隨指數(shù)級(jí)上升。而這個(gè) Scaling Law ,同樣也是 Sora 這么強(qiáng)的秘密武器。
所以照這么來(lái)盤算,Sora其實(shí)還得叫Vidu一聲祖師爺才對(duì)。。。
但現(xiàn)實(shí)世界卻是, DiT 被 OpenAI 帶著一路飛升。
清華小分隊(duì)呢,計(jì)算資源沒(méi) OpenAI 那么到位,也沒(méi) ChatGPT 這種珠玉在前,總之就是啥啥都不完善,他們只能慢慢來(lái),先做圖像、 3D 模型,等有家底兒了,再去做視頻。
好在他們身上還是有點(diǎn)實(shí)力在的,穩(wěn)扎穩(wěn)打慢慢也趕上來(lái)了。去年 3 月,清華小分隊(duì)們成立了生數(shù)科技后,就在馬不停蹄地搞自家的產(chǎn)品,現(xiàn)在圖像生成和 3D 模型生成大伙兒都能免費(fèi)用了。
并且靠著這兩個(gè)產(chǎn)品,剛滿一周年,它就攢了好幾億的家底。
像是成立 3 個(gè)月的時(shí)候,就完成了一波近億級(jí)的天使輪投資,上個(gè)月,又完成了新一輪的數(shù)億元融資。參與投資的,也都是智譜 AI 、 BV 百度風(fēng)投等等業(yè)內(nèi)大佬。
反正看這波架勢(shì), Vidu 還真有可能成為國(guó)內(nèi)的黑馬,去對(duì)標(biāo) OpenAI 的 Sora 。
不過(guò)生數(shù)科技那邊,倒是覺(jué)得只把 Vidu 看作國(guó)產(chǎn)版的 Sora ,實(shí)在是有點(diǎn)缺乏想象力了,因?yàn)樗麄兘o Vidu 的定位,可不僅僅是個(gè)視頻模型,而是圖、文、視頻全都要,只不過(guò)現(xiàn)在視頻暫時(shí)是重點(diǎn)。
當(dāng)然了,好聽(tīng)話誰(shuí)都會(huì)說(shuō),能不能搞出來(lái),咱還得實(shí)打?qū)嵉乜闯善贰?/p>
世超已經(jīng)去排了隊(duì),等拿到內(nèi)測(cè)資格,再跟大伙兒同步一波。。。
圖片、資料來(lái)源:
Scalable Diffusion Models With Transformers
All are Worth Words:A ViT Backbone for Diffusion Models
機(jī)器之心,專訪生數(shù)科技唐家渝:清華系團(tuán)隊(duì)拿到上億融資,用Transformer來(lái)做多模態(tài)大模型
界面新聞,生數(shù)科技完成新一輪融資,國(guó)內(nèi)多模態(tài)大模型廠商著力追趕Sora
極客公園,國(guó)產(chǎn) Sora 的秘密,藏在這個(gè)清華系大模型團(tuán)隊(duì)中
新智元,圖靈諾獎(jiǎng)得主等大佬齊聚海淀!清華版Sora震撼首發(fā),硬核AI盛會(huì)破算力黑洞
撰文:松鼠;編輯:江江 & 面線
來(lái)源公眾號(hào):差評(píng)(ID:chaping321),Debug the World。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @差評(píng) 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!