国产又粗又紧又爽又黄的免费视频 ,综合国产精品2022

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

剛發(fā)布就被對(duì)標(biāo)Sora，這個(gè)國(guó)產(chǎn)模型來(lái)頭這么大？

差評(píng)

2024-04-30

0 評(píng)論 839 瀏覽 5 收藏

11 分鐘

在AI視頻生成領(lǐng)域，國(guó)產(chǎn)模型Vidu以其驚人的真實(shí)度和創(chuàng)新能力引起了廣泛關(guān)注。Vidu能夠根據(jù)簡(jiǎn)短的提示詞生成長(zhǎng)達(dá)16秒的逼真視頻，其效果足以媲美Sora，甚至在某些方面超越了它。讓我們跟隨作者的視角，一起來(lái)看看吧。

前幾天，世超上網(wǎng)沖浪的時(shí)候，刷到了幾個(gè) AI 視頻片段。

大船駛來(lái)的壓迫感，被風(fēng)吹起的發(fā)絲和絲巾，太空人直接走進(jìn)現(xiàn)實(shí)菜園。。。一幕幕把我看得是一愣一愣的。

真實(shí)度也是一絕，在湖邊隨著鏡頭移動(dòng)，不僅光線跟著變化，連天空、樹(shù)木的變化都跟咱肉眼看到的沒(méi)差。

要不是右下角有水印，我還差點(diǎn)以為是 Sora 的視頻又上新了。

所以這次的主角不是 Sora ，也不是各位差友熟知的 Pika 、 Runway 那幾個(gè) Sora 競(jìng)品，而是初出茅廬的國(guó)產(chǎn)視頻大模型 Vidu 。

咱看到的那些視頻，就是前幾天， Vidu 在中關(guān)村論壇的人工智能主題日上公布的。

它最長(zhǎng)能生成16秒，一句“木頭玩具船在地毯上航行”的提示詞，就能生成下面這長(zhǎng)長(zhǎng)的一段，一鏡到底的絲滑程度，怕是路過(guò)的謀子導(dǎo)演看了都會(huì)點(diǎn)贊。

Sora號(hào)稱能真實(shí)模擬物理世界的拿手戲， Vidu 照樣也能實(shí)現(xiàn)。

讓它生成一段“汽車加速駛過(guò)森林里鄉(xiāng)間小路”的視頻，像是樹(shù)林縫隙透過(guò)的陽(yáng)光，后輪揚(yáng)起的灰塵，都很符合咱們的日常認(rèn)知。

而且 Vidu 的想象力比咱人還要豐富，畫室里的一艘船駛向鏡頭的場(chǎng)景，它分分鐘就能給“拍”出來(lái)，看這效果，不知道該有多少動(dòng)效師瑟瑟發(fā)抖了。

甚至在某些提示詞下， Vidu 的理解能力比 Sora 還強(qiáng)，比如“鏡頭繞著電視旋轉(zhuǎn)”的提示詞， Sora 壓根兒就沒(méi) get 到旋轉(zhuǎn)的意思，反而是 Vidu 能輕松理解。

有一說(shuō)一，在看完 Vidu 的這些視頻后，世超是真覺(jué)得它是目前市面上，唯一一個(gè)能在畫面效果上和 Sora 拼一拼的模型。

雖然現(xiàn)在 16 秒的 Vidu 在時(shí)長(zhǎng)上還比不上 60秒的 Sora ，但它的進(jìn)步也確實(shí)是肉眼可見(jiàn)的快，據(jù)極客公園消息，上個(gè)月， Vidu 在內(nèi)部只能生成 8 秒的視頻，上上上個(gè)月，還只能生成 4 秒的視頻。

反正媒體們都把 Vidu 比作是“ Sora 級(jí)視頻大模型”，網(wǎng)友們也都在評(píng)論區(qū)喊話催他們趕緊開(kāi)放內(nèi)測(cè)。

不過(guò)這里面世超更好奇的是，咱之前壓根兒都沒(méi)聽(tīng)說(shuō)過(guò) Vidu ，怎么突然平地一聲雷，搞出了這么大的陣仗？

我們也順藤摸瓜找了找資料，發(fā)現(xiàn)Vidu身上，值得說(shuō)道的東西還挺多，甚至仔細(xì)咂摸下，還能從Sora身上找出點(diǎn)Vidu的影子來(lái)（世超可沒(méi)說(shuō)反）。

它背后是一家名叫生數(shù)科技的公司，別看這個(gè)公司才剛滿一周歲，但它可是在娘胎里就開(kāi)始攢勁兒了。因?yàn)樗挠H媽，是清華系AI 企業(yè)瑞萊智慧，背后的研究團(tuán)隊(duì)，幾乎全是這里面的人。

而在成立生數(shù)科技之前，團(tuán)隊(duì)就已經(jīng)把視頻大模型研究得很深入了。

尤其是在圖像生成這塊很火的擴(kuò)散（Diffusion）模型，他們算是業(yè)內(nèi)第一批研究這個(gè)模型的，整出來(lái)的論文也在 ICML 、 NeurIPS 、 ICLR 各種頂會(huì)發(fā)了個(gè)遍。

正是因?yàn)橛羞@么好的底子，早在2022年9月的時(shí)候，團(tuán)隊(duì)就找到了做 Vidu 的靈感，就是下面這篇論文。

世超讓AI幫咱解讀了下，大概的思路就是，擴(kuò)散模型在生成圖像這塊挺強(qiáng)，而大語(yǔ)言模型里用的Transformer有個(gè)規(guī)模（Scale）效應(yīng)，參數(shù)堆得越多，性能就越好。團(tuán)隊(duì)就想著，能不能把這兩個(gè)的優(yōu)點(diǎn)結(jié)合一下，整個(gè)融合架構(gòu)，提升圖像生成的質(zhì)量。

于是他們轉(zhuǎn)頭把擴(kuò)散模型里面的 U-Net 給換成 Transformer ，還起了個(gè)名字叫 U-ViT （ Vision Transformers ）。結(jié)果試下來(lái)發(fā)現(xiàn)這么一結(jié)合還真有用，光是相同大小的 U-ViT ，性能就比 U-Net 強(qiáng)了。

那好嘛，既然這條路走得通，他們也順勢(shì)把技術(shù)路線定在了 U-ViT 上。

然鵝。。。在團(tuán)隊(duì)悄悄醞釀 Vidu 的時(shí)候，大洋彼岸的UC伯克利的一個(gè)研究，卻讓 OpenAI 的 Sora 捷足先登了。

就在清華小分隊(duì)提交論文的兩個(gè)月后，UC伯克利也在預(yù)印平臺(tái)ArXiv上提交他們的論文了，一樣說(shuō)要把Transformers揉在擴(kuò)散模型里面，只不過(guò)名字起的更直白了點(diǎn)，叫DiT（ Diffusion Transformers ）。

看著是不是挺眼熟，沒(méi)錯(cuò)， OpenAI 的 Sora 模型，用的就是伯克利的 DiT 技術(shù)路線。

但因?yàn)榍迦A小分隊(duì)早發(fā)了兩個(gè)月，當(dāng)年的計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2023還以“缺乏創(chuàng)新”的由頭，拒了 Sora 的 DiT ，收錄了 U-ViT 。

而且早在2023年年初的時(shí)候，清華小分隊(duì)還用U-ViT，訓(xùn)練出了一個(gè)近10億參數(shù)量的開(kāi)源大模型 UniDiffuser 。

算是第一個(gè)用行動(dòng)證明了，融合架構(gòu)也遵守 Scaling Law 這一套規(guī)則，也就是說(shuō)隨著計(jì)算量、參數(shù)量越來(lái)越大，模型的性能就會(huì)隨指數(shù)級(jí)上升。而這個(gè) Scaling Law ，同樣也是 Sora 這么強(qiáng)的秘密武器。

所以照這么來(lái)盤算，Sora其實(shí)還得叫Vidu一聲祖師爺才對(duì)。。。

但現(xiàn)實(shí)世界卻是， DiT 被 OpenAI 帶著一路飛升。

清華小分隊(duì)呢，計(jì)算資源沒(méi) OpenAI 那么到位，也沒(méi) ChatGPT 這種珠玉在前，總之就是啥啥都不完善，他們只能慢慢來(lái)，先做圖像、 3D 模型，等有家底兒了，再去做視頻。

好在他們身上還是有點(diǎn)實(shí)力在的，穩(wěn)扎穩(wěn)打慢慢也趕上來(lái)了。去年 3 月，清華小分隊(duì)們成立了生數(shù)科技后，就在馬不停蹄地搞自家的產(chǎn)品，現(xiàn)在圖像生成和 3D 模型生成大伙兒都能免費(fèi)用了。

并且靠著這兩個(gè)產(chǎn)品，剛滿一周年，它就攢了好幾億的家底。

像是成立 3 個(gè)月的時(shí)候，就完成了一波近億級(jí)的天使輪投資，上個(gè)月，又完成了新一輪的數(shù)億元融資。參與投資的，也都是智譜 AI 、 BV 百度風(fēng)投等等業(yè)內(nèi)大佬。

反正看這波架勢(shì)， Vidu 還真有可能成為國(guó)內(nèi)的黑馬，去對(duì)標(biāo) OpenAI 的 Sora 。

不過(guò)生數(shù)科技那邊，倒是覺(jué)得只把 Vidu 看作國(guó)產(chǎn)版的 Sora ，實(shí)在是有點(diǎn)缺乏想象力了，因?yàn)樗麄兘o Vidu 的定位，可不僅僅是個(gè)視頻模型，而是圖、文、視頻全都要，只不過(guò)現(xiàn)在視頻暫時(shí)是重點(diǎn)。

當(dāng)然了，好聽(tīng)話誰(shuí)都會(huì)說(shuō)，能不能搞出來(lái)，咱還得實(shí)打?qū)嵉乜闯善贰?/p>

世超已經(jīng)去排了隊(duì)，等拿到內(nèi)測(cè)資格，再跟大伙兒同步一波。。。

圖片、資料來(lái)源：

Scalable Diffusion Models With Transformers

All are Worth Words：A ViT Backbone for Diffusion Models

機(jī)器之心，專訪生數(shù)科技唐家渝：清華系團(tuán)隊(duì)拿到上億融資，用Transformer來(lái)做多模態(tài)大模型

界面新聞，生數(shù)科技完成新一輪融資，國(guó)內(nèi)多模態(tài)大模型廠商著力追趕Sora

極客公園，國(guó)產(chǎn) Sora 的秘密，藏在這個(gè)清華系大模型團(tuán)隊(duì)中

新智元，圖靈諾獎(jiǎng)得主等大佬齊聚海淀！清華版Sora震撼首發(fā)，硬核AI盛會(huì)破算力黑洞

撰文：松鼠；編輯：江江 & 面線

來(lái)源公眾號(hào)：差評(píng)（ID：chaping321），Debug the World。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @差評(píng) 授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。