再說Sora原理:讓復雜變簡單
在討論Sora如何處理復雜視覺內(nèi)容這一話題中,了解空間時間補?。⊿pacetime Patches)這一概念是至關(guān)重要的。這篇文章里,作者便探討了視頻壓縮網(wǎng)絡(luò)及其與空間時間潛在補丁之間的關(guān)系,以及它們在視頻生成過程中的作用,一起來看一下。
繼上一次分享的《能看懂的Sora原理》討論Sora如何生成視頻的原理之后,讓我們再進一步集中探索一下空間時間補丁(Spacetime Patches)這一概念。因為這一概念對于理解Sora如何處理復雜視覺內(nèi)容至關(guān)重要。
空間時間補丁可以簡單理解為將視頻或圖片內(nèi)容分解為一系列小塊或“補丁”,每個小塊都包含了部分時間空間信息。這種方法的靈感來源于處理靜態(tài)圖像的技術(shù),其中圖像被分成小塊以便于更有效地處理。在視頻處理的背景下,這一概念被拓展到了時間維度,不僅包含空間(即圖像的部分區(qū)域),還包括時間(即這些區(qū)域隨時間的變化)。
為了理解空間時間補丁是如何工作的,我們可以借用一個簡單的日常生活中的比喻:想象一下,你在觀看一部電影。如果我們將這部電影切割成一幀幀的靜態(tài)畫面,每幀畫面進一步切割成更小的區(qū)域(即“補丁”),那么每個小區(qū)域都會包含一部分畫面的信息。隨著時間的推移,這些小區(qū)域中的信息會隨著物體的移動或場景的變化而變化,從而在時間維度上添加了動態(tài)信息。
在Sora中,這樣的“空間時間補丁”使得模型可以更細致地處理視頻內(nèi)容的每一個小片段,同時考慮它們隨時間的變化。
具體到Sora處理視覺內(nèi)容的過程中,空間時間補丁首先通過視頻壓縮網(wǎng)絡(luò)生成。這一網(wǎng)絡(luò)負責將原始視頻數(shù)據(jù)壓縮成更低維度的表示形式,即一個由許多小塊組成的密集網(wǎng)絡(luò)。這些小塊即為我們所說的“補丁”,每個補丁都攜帶了一部分視頻的空間和時間信息。
一旦生成了這些空間時間補丁,Sora就可以開始它們的轉(zhuǎn)換過程了。通過預(yù)先訓練好的轉(zhuǎn)換器(Transformer模型),Sora能夠識別每個補丁的內(nèi)容,并根據(jù)給定的文本提示進行相應(yīng)的修改。例如,如果文本提示是“雪地中的狗狗奔跑”,Sora將找到與“雪地”和“奔跑的狗狗”相關(guān)的補丁,并相應(yīng)調(diào)整它們,以生成與文本提示匹配的視頻內(nèi)容。
之所以Sora可以將“雪地”和“奔跑的狗狗”放在一起,是因為Sora是一個基于語言模型范式的視頻模型。但是要理解為什么語言模型范式在視頻生成任務(wù)上也能這么有效,我們先打個比方來說一下語言模型為什么能成功生成語言:
語言模型基于一種叫做“token”的概念來抽象[多模態(tài)]的語言(語言,數(shù)學,代碼。。。)并通過“預(yù)測” token 來生成段落。
打個比方:
“你吃” 是一個 “Token”
那么你猜下一個Token更應(yīng)該是以下哪個?
“了嗎”、 “足浴店”、 “變形金剛” 。。。
很顯然, 答案是 “了嗎”.
所以你明白了嗎?就像是你手機輸入法的那個“自動補全” 功能, 只不過 token不是具體的詞匯, 是一種隱空間表達的語言段落, 訓練的數(shù)據(jù)量和方式也更高級。
這其實就是語言模型范式最簡單的原理,根據(jù)上一個Token,推測下一個Token,然后不斷往下去“扯犢子”并最終形成一個篇章的行為模式。
再回到Sora這個基于語言模型的視頻生成模型,當他收到對應(yīng)文字提示時,他就會自動抓取跟文字提示有關(guān)系的哪些“補丁”然后再將這些補丁從時間和控件維度上進行拼接,最終形成你想要的視頻。
這種基于空間時間補丁的處理方式有幾個顯著優(yōu)勢。首先,它允許Sora以非常精細的層次操作視頻內(nèi)容,因為它可以獨立處理視頻中的每一小塊信息。其次,這種方法極大地提高了處理視頻的靈活性,使得Sora能夠生成具有復雜動態(tài)的高質(zhì)量視頻,而這對于傳統(tǒng)視頻生成技術(shù)來說是一個巨大的挑戰(zhàn)。
此外,通過對這些補丁進行有效管理和轉(zhuǎn)換,Sora能夠在保證視頻內(nèi)容連貫性的同時,創(chuàng)造出豐富多樣的視覺效果,滿足用戶的各種需求。
隨著對Sora視頻生成過程的進一步探討,我們可以看到,空間時間補丁在這一過程中扮演了極其重要的角色。它們不僅是Sora處理和理解復雜視覺內(nèi)容的基石,也是使得Sora能夠高效生成高質(zhì)量視頻的關(guān)鍵因素之一。接下來,我們將更深入地探討視頻壓縮網(wǎng)絡(luò)及其與空間時間潛在補丁之間的關(guān)系,以及它們在視頻生成過程中的作用。
一、視頻壓縮網(wǎng)絡(luò)
想象一下,你正要將成一個十分復雜的樂高積木分類整理并重新拼組。你的目標是,用盡可能少的盒子裝下所有部件,同時確保能快速找到所需之部件。在這個過程中,你可能會將每個小部件裝入小盒子中,然后將這些小盒子放入更大的箱子里。這樣,你就用更少、更有組織的空間存儲了同樣多的部件。
視頻壓縮網(wǎng)絡(luò)正是遵循這一原理。它將一段視頻的內(nèi)容“分類和組織”成一個更加緊湊、高效的形式(即降維)。這樣,Sora就能在處理時更高效,同時仍保留足夠的信息來重建原始視頻。
二、空間時間潛在補丁提取
接下來,如果你想要細致地記下每個盒子里裝了什么,可能會為每個盒子編寫一張清單。這樣,當你需要找回某個積木部件時,只需查看對應(yīng)的清單,就能快速定位它在哪個盒子里。
在Sora中,類似的“清單”就是空間時間潛在補丁。通過視頻壓縮網(wǎng)絡(luò)處理后,Sora會將視頻分解成一個個小塊,這些小塊含有視頻中一小部分的空間和時間信息,就好像是對視頻內(nèi)容的詳細“清單”。這讓Sora在之后的步驟中能針對性地處理視頻的每一部分。
三、Transformer模型抓取空間時間補丁
最后,想象一下。某一日你將這幅樂高積木進行拼裝復原,你仔細閱讀了拼裝說明,你先將樂高積木分成若干模塊。然后,你根據(jù)各模塊對應(yīng)的說明拼裝出積木的一部分。最終,你再將各模塊的部分進行合并,形成一幅完整積木。
在Sora的視頻生成過程中,Transformer模型正扮演著類似你一樣的角色。它接收空間時間潛在補?。匆曨l內(nèi)容的“拼部件”)和文本提示(即“說明”),然后決定如何將這些片段轉(zhuǎn)換或組合以生成最終的視頻,從而完成可高積木的拼裝和組合。這一過程既有時間維度,又有空間維度,每一個樂高部件都相當于一個空間時間補丁。最終生成一個完整的視頻。
通過上述這三個關(guān)鍵步驟的協(xié)同工作,Sora能夠?qū)⑽谋咎崾巨D(zhuǎn)化為具有豐富細節(jié)和動態(tài)效果的視頻內(nèi)容。不僅如此,這一過程還極大地提升了視頻內(nèi)容生成的靈活性和創(chuàng)造力,使Sora成為一個強大的視頻創(chuàng)作工具。
最后讓我再一起欣賞下Sora生成的視頻:
Sora能夠生成展現(xiàn)動態(tài)攝像機運動的視頻,這意味著它不僅能捕捉到平面圖像中的動作,還能以3D的視角呈現(xiàn)物體和人物的運動。以下是模擬無人機對在山澗中的人進行追蹤拍攝的畫面。展現(xiàn)了Sora對三維空間理解的深度,使得生成的視頻在視覺上更加真實和生動。
一直旋轉(zhuǎn)的山
在生成長視頻時,保持視頻中的人物、物體和場景的一致性是一項挑戰(zhàn)。Sora展示了在這方面的卓越能力,能夠在視頻的多個鏡頭中準確保持角色的外觀和屬性。例如下方的視頻畫面,當人物穿行而過,能保持狗的樣貌和姿勢保持一致,體現(xiàn)了Sora在維持長期一致性上的強大能力。
總是張望的狗
Sora真的就如同人類認知這個世界的方式去理解一切事物,它也會有一些反物理常識的問題出現(xiàn),比如下方這個視頻,被子沒有破碎,里面的水就已經(jīng)灑出來了,這是因為對于復雜的物理互動,如玻璃破碎的精細過程,或是涉及精確力學運動的場景,Sora有時無法準確再現(xiàn)。這主要是因為Sora目前的訓練數(shù)據(jù)中缺乏足夠的實例來讓模型學習這些復雜的物理現(xiàn)象。
總的來說,Sora在視頻生成和模擬真實世界互動方面的表現(xiàn)雖然已經(jīng)很出色,但仍然存在諸多挑戰(zhàn)。不過我們有理由相信,未來Sora能夠在保持創(chuàng)新的同時,克服當前面臨的局限性,展現(xiàn)出更加強大和廣泛的應(yīng)用潛力。
本文由@楠説 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自 Sora 官網(wǎng)演示視頻截圖
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!