看了Sora,感覺短視頻要懸了!

0 評論 5041 瀏覽 8 收藏 13 分鐘
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

Sora其實并不單是文生視頻,它其實是一個世界模型。在3D內(nèi)容的生成成本被大模型拉下來以后,真正應(yīng)該瑟瑟發(fā)抖的,正是現(xiàn)在如火如荼的短視頻世界。

Sora發(fā)布也不少天了,按說,作為一名二手科學(xué)家,咱也得蹭熱度聊聊??墒强粗髀纷悦襟w花式的震驚、反思和賣課,我有點不知所措,這都是扯啥呢?

我對這些不感興趣,不過,那幾段demo視頻擼了一遍又一遍,再想起在MSRA做AI時的一些經(jīng)歷,我有點醒攢兒了:您還真以為這東西是為了幫大家水視頻用的么?不是!照這個路數(shù)下去,以視頻為主的社交網(wǎng)絡(luò)媒介形式,可能要被連鍋端了!

這并非危言聳聽,咱們先從大家熱議的“世界模型”說起。

一、“世界模型”到底是啥

看了Sora,您有什么最深切的感受?我在擼了九九六十四遍以后,突然感到有點毛骨悚然:與Runway、Pika那些競品“帕金森”風(fēng)格的視頻相比,這些視頻里的物理結(jié)構(gòu),也太TM穩(wěn)定真實了!

您看看下面這段無人機穿越大斗獸場遺跡的視頻:所有的建筑物幾何結(jié)構(gòu),全程沒有扭曲、沒有變型、沒有坍塌。

再看看這段咖啡杯里的海盜船視頻,多么流暢自然的流體運動!一點兒也看不出跟我們熟悉的物理規(guī)律不符之處!做過計算機圖形學(xué)的都知道,水、霧、風(fēng)這些非剛體的運動畫面模擬,那是多么困難的任務(wù)。

這說明了什么?Sora絕不是在二維框里做建模,把像素生成出來了事!它一定是通過大模型,對世界和物體的三維形態(tài)、運動規(guī)律有了統(tǒng)計意義上的理解,并且具備了不錯的泛化能力。然后,將它再投射回二維平面中,得到一段視頻的。這就是我理解的“世界模型”。當(dāng)然,這里的投射,是通過大模型的推理,而非傳統(tǒng)的CG渲染。

也就是說,Sora腦子里的世界,是三維的、立體的、運動的。而平面的視頻框,其實限制了它的表達(dá)力!

不信,您看看下面這段demo,同一個場景,生成了五段多機位下的視頻,您說說Sora背后對世界的理解,能是一個框一個框分別往里填的么?

那位說了,你扯這些有卵用?我管Sora背后咋看世界的,反正最后不還是生成一段視頻么!這么想,格局真的小了!既然它腦子里的世界是立體的,那就存在對現(xiàn)有的短視頻形態(tài)降維打擊的可能!

二、Sora真正的顛覆意義

世界模型有啥用?對短視頻有啥影響?這跟得從前些日子的另一個熱點產(chǎn)品說起——蘋果的VisionPro。

這東西,酷倒是挺酷,但是目前很難普及。因為,VR世界對內(nèi)容的巨大渴求,靠傳統(tǒng)的3D內(nèi)容生產(chǎn)方式,根本就滿足不了!

生產(chǎn)3D內(nèi)容的經(jīng)典方法,是參數(shù)建模:建模師在電腦上進行參數(shù)和特征輸入,生成對應(yīng)的模型對象,簡單理解就是在電腦上“捏泥人”?!澳嗳恕笔悄蟪鰜砹耍且伙A一笑極其僵硬,跟提線木偶戲一樣。而且,弄一個模型,得累死兩個設(shè)計師。

有沒有簡單自然點的方法?動作捕捉。像下圖這樣,演員穿著一身數(shù)字盔甲,完成一串動作,再通過計算機視覺和運動模型完成3D內(nèi)容生產(chǎn)??墒沁@成本依然很高,沒設(shè)備你還玩不了。

有沒有高科技一點的方法呢?看過超級碗(superbowl)的朋友應(yīng)該知道,人家轉(zhuǎn)播時有個“全視角回放”,這是咋弄的呢?簡單來說,就是在比賽場地360度無死角安一堆高清攝像頭,再基于幾何拼接重建3D視頻。當(dāng)年,我在微軟研究院上班時,當(dāng)時的院長沈向洋博士,就對這項技術(shù)有不少貢獻(xiàn)。

那么現(xiàn)在有了Sora,情況有什么根本變化呢?再也不用架那么多攝像機,無死角地捕捉圖像用于拼接了!從演示來看,大模型見過的東西太多,已經(jīng)有了類似于人類的泛化能力:咱們看到金字塔的正面,背面是啥樣大概也能猜出來,大模型對各種概念、物體得形態(tài)和細(xì)節(jié)的把握,也接近這個程度了。那您想想,將來3D內(nèi)容的生產(chǎn),是不是只要幾張照片、一兩個攝像頭,交給世界模型自個腦補,就搞定了?如此一來,3D內(nèi)容的爆發(fā)也就不遠(yuǎn)了,您說這玩意有沒有用?

有人跟我抬杠:我沒有Vision Pro,就一個手機,3D內(nèi)容有啥意義呢?其實,手機這樣的平面媒介上,三維內(nèi)容也好玩,而且有用!

比如您要買房,網(wǎng)站上要是有VR看房,能在房子里轉(zhuǎn)悠的,是不是內(nèi)部情況一覽無余?這比對著圖片和視頻腦補方便多了吧!再比如電商購物,想換個沙發(fā),對著干巴巴的圖文越看越眼暈。可是現(xiàn)在,電商網(wǎng)站的部分產(chǎn)品有了3D物品展示功能,是不是跟去線下實體店看沙發(fā)差不多了?

所以說,如果您還認(rèn)為Sora只是高效生成視頻的工具,那么只能說格局小了。視頻,本來就是Sora世界模型的副產(chǎn)品。未來,算力更強大,模型更完善,它可以真正實現(xiàn)低成本、高還原度地提供三維內(nèi)容,這才是顛覆性的新場景!

將來,房產(chǎn)銷售隨手拍幾張照片,就可以生成流暢的VR看房模型,或者再虛擬裝修一些生成演示視頻;導(dǎo)演拿相機拍幾張分鏡圖,完整的3D電影片段就自動生成出來了。

等VR世界的內(nèi)容大規(guī)模爆發(fā)的那一天,長腿小姐姐可以繞著你跳舞了,不坐飛機就能漫游吳哥窟了,甚至人人都可以根據(jù)自己的想象,創(chuàng)造出有趣的場景和物品讓人觀賞。您想想,這是不是比二維世界里的短視頻,要聲色犬馬、紙醉金迷得多?在荒淫娛樂方面,一向覺悟甚高的人民群眾,會選擇哪個、拋棄哪個,您心里沒點數(shù)么?

所以,在3D內(nèi)容的生成成本被大模型拉下來以后,真正應(yīng)該瑟瑟發(fā)抖的,正是現(xiàn)在如火如荼的短視頻世界。

三、普通人的機會在哪里

本來,聊到這兒就該收尾了,但是老有些焦慮的同行來問:AI這么牛逼了,我們還有出路么?所以再多說兩句。

先說說影視、游戲、廣告這些創(chuàng)意行業(yè)。Sora的出現(xiàn),帶來了很大的想象空間。現(xiàn)在,只要給一段文字描述,或幾張圖片,就可以自動生成一條視頻素材。但是,目前來看,要在商業(yè)領(lǐng)域大規(guī)模應(yīng)用,還要有點“最后一公里”的工具。

這是因為,大模型還不能很好的建模因果性和邏輯性較強的場景。比如,這個女子走在大街上的視頻,可以看到她身后的廣告牌和店鋪招牌都是鬼符,而第二個視頻里,杯子打碎的情況明顯違反物理規(guī)律。因此,實用中,必須要有一個視頻修改和元素替換的AI工具,解決品牌形象植入,文字和形象替換等問題,才能得到真正有用的素材。當(dāng)然,我覺得這工具很快就會有的。

然后呢?咱們就可以混吃等死了么?有什么新技能要培養(yǎng)呢?

我真心覺得,大家沒必要追著AI工具走。因為AI的目的,就是要降低這些工具的使用門檻,隨著它們不斷迭代,你學(xué)的那些使用技巧,很快就不需要了。

比如,電腦剛在中國普及的時候,興起了一波五筆輸入法的培訓(xùn)和學(xué)習(xí)狂潮,可是隨著技術(shù)發(fā)展,中文輸入法越來越成熟,現(xiàn)在你看,還有人專門學(xué)五筆么?

還有,零幾年那會兒Google剛興起時,市面上可是有很多“精通搜索引擎”的培訓(xùn)班的!現(xiàn)在再回頭看,簡直有點行為藝術(shù)了。

我的觀點,大家更應(yīng)該培養(yǎng)“與AI垂直的能力”。比如您是視頻相關(guān)從業(yè)者,那么您需要培養(yǎng)的是,還是劇本創(chuàng)作、場景規(guī)劃這些策略性的能力——工具發(fā)展得越快,這些能力就越寶貴。

當(dāng)然,當(dāng)下最重要的大策略,還是如何理解和把握AI帶來的趨勢性機會。其實,如同第一次工業(yè)革命的蒸汽時代,和第二次工業(yè)革命的電力時代,當(dāng)產(chǎn)能更高、效率更高的革命性產(chǎn)品出現(xiàn)的時候,潮流是不可逆的。

在信息時代,信息傳播載體經(jīng)歷了由文字到圖像到視頻變遷過程,當(dāng)Sora這樣跨時代的產(chǎn)品出現(xiàn)的時候,互聯(lián)網(wǎng)的信息傳播的載體也必將會拉開由二維內(nèi)容向三維內(nèi)容升級的序幕。以此為契機,在其中尋找工具、平臺和內(nèi)容的新機會,只有我們想不到,沒有什么不可能。

作者:大數(shù)據(jù)仁波茄,公眾號:計算廣告(ID:Comp_Ad)

本文由@計算廣告 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Sora 官網(wǎng)演示視頻截圖

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!