速遞|李飛飛 World Labs 推出首個(gè) AI 系統(tǒng)—— 生成從圖片到可交互的 3D 場(chǎng)景
李飛飛創(chuàng)業(yè)的項(xiàng)目交出了第一個(gè)產(chǎn)品:一個(gè)能從單張照片生成類似游戲 3D 場(chǎng)景的 AI 系統(tǒng)。從效果是功能來(lái)看,比所謂的文生圖、文生視頻強(qiáng)了很多,而且還支持交互修改,是不是元宇宙的世界,就要來(lái)了?
李飛飛創(chuàng)立的 World Labs 推出了首個(gè)項(xiàng)目 —— 一個(gè)能從單張照片生成類似游戲?3D 場(chǎng)景的 AI 系統(tǒng),其獨(dú)特性在于支持交互且可以修改。
World Labs 的系統(tǒng)能為場(chǎng)景提供交互效果和動(dòng)畫(huà),例如更改物體的顏色和動(dòng)態(tài)調(diào)整背景燈光。
該系統(tǒng)屬于一個(gè)新興的 AI 類別——“世界模型”(World Models),許多此類模型可以模擬游戲和 3D 環(huán)境,但通常存在偽影和一致性問(wèn)題。
初創(chuàng)公司 Decart 的 Minecraft 模擬世界模型 Oasis 分辨率較低,并且容易“忘記”關(guān)卡布局。
World Labs 在官方博客中提到,目前的大多數(shù)生成式 AI 工具生成的是 2D 內(nèi)容,比如圖像或視頻,而生成 3D 內(nèi)容則提升了控制力和一致性。
這將改變我們制作電影、游戲、模擬器以及其他物理世界數(shù)字表現(xiàn)形式的方式。
World Labs 的系統(tǒng)將圖片轉(zhuǎn)換為可交互和探索的 3D 場(chǎng)景。用戶可以通過(guò)使用箭頭鍵或 WASD 移動(dòng),然后單擊并拖動(dòng)鼠標(biāo)來(lái)探索這些 AI 生成的場(chǎng)景。
這些場(chǎng)景在瀏覽器中實(shí)時(shí)渲染,并配備可調(diào)的模擬景深效果(DoF)。
官網(wǎng)上提供了一個(gè)調(diào)節(jié)景深的滑塊,景深效果越強(qiáng),背景物體就越模糊。
World Labs 的方法確保了生成的場(chǎng)景在生成后保持不變,并遵循基本的物理規(guī)律,具有一定的實(shí)體感和深度感。
World Labs?還支持模擬推拉變焦,同時(shí)調(diào)整攝像機(jī)的位置和視野:
World Labs 還提到,大多數(shù)生成模型預(yù)測(cè)的是像素,而預(yù)測(cè) 3D 場(chǎng)景則具有許多優(yōu)勢(shì):
- 持久的現(xiàn)實(shí)感:一旦生成了一個(gè)世界,它會(huì)保持穩(wěn)定。如果你暫時(shí)離開(kāi)視線,然后再回來(lái),場(chǎng)景不會(huì)發(fā)生變化。這種持久性提供了更連貫的體驗(yàn),避免了傳統(tǒng)生成模型中場(chǎng)景不一致的情況。
- 實(shí)時(shí)控制:在生成場(chǎng)景后,用戶可以實(shí)時(shí)在場(chǎng)景中自由移動(dòng)。例如,你可以停下來(lái)仔細(xì)觀察一朵花的細(xì)節(jié),或者繞過(guò)一個(gè)角落,看看背后隱藏了什么。這種實(shí)時(shí)互動(dòng)使場(chǎng)景更具沉浸感和探索性。
- 正確的幾何結(jié)構(gòu):World Labs 生成的世界遵循 3D 幾何的基本物理規(guī)則。這些場(chǎng)景具有實(shí)體感和深度感,與某些 AI 生成視頻的夢(mèng)幻性質(zhì)形成對(duì)比,更貼近現(xiàn)實(shí)體驗(yàn)。
深度圖是將 3D 場(chǎng)景投影到二維空間的一種方式,它通過(guò)像素的顏色深淺來(lái)表達(dá)物體的遠(yuǎn)近。
例如,離攝像機(jī)較近的像素可能被顯示為亮色,而較遠(yuǎn)的像素則為暗色。這種方式直觀地展示了場(chǎng)景的三維空間結(jié)構(gòu),為開(kāi)發(fā)者和用戶理解場(chǎng)景的深度和布局提供了重要工具。
通過(guò)這些特性,World Labs 的技術(shù)為生成式 AI 3D 場(chǎng)景奠定了堅(jiān)實(shí)基礎(chǔ),并大幅提升了內(nèi)容的交互性、真實(shí)性和一致性。
最后,World Labs 還展示了一條視頻,作者 Brittani Natali 將 World Labs 的技術(shù)與 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相結(jié)合的工作流程。
本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】,微信公眾號(hào):【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
3D生成方面的創(chuàng)新還是第一次見(jiàn)噢,能完善到如此,厲害厲害。
World Labs 的技術(shù)在3D場(chǎng)景生成和交互性方面提供了顯著的優(yōu)勢(shì),特別是在持久性、實(shí)時(shí)控制和正確的幾何結(jié)構(gòu)方面。