對話騰訊混元團(tuán)隊(duì):新發(fā)AI生3D模型,能看清每一根羽毛

知危
0 評論 1701 瀏覽 0 收藏 24 分鐘

騰訊混元團(tuán)隊(duì)最新發(fā)布的AI生3D模型v2.5版本,以其卓越的建模精細(xì)度和免費(fèi)試用次數(shù)的翻倍,引起了業(yè)界的廣泛關(guān)注。本文將深入探討這一模型的技術(shù)升級細(xì)節(jié),并通過實(shí)際測評展示其在3D對象生成上的強(qiáng)大能力。同時,文章還包含了與騰訊混元技術(shù)專家的對話,討論了AI生3D技術(shù)在游戲行業(yè)中的應(yīng)用前景、商業(yè)化潛力以及面臨的挑戰(zhàn),為讀者揭示了AI生3D技術(shù)的未來發(fā)展圖景。

短短一個月,騰訊混元 3D 生成模型又升級了一次,從 v2.0 版本到 v.2.5 版本,據(jù)騰訊宣稱 v2.5 版本在建模精細(xì)度上大幅提升。加上免費(fèi)試用次數(shù)翻倍,從 10 次變?yōu)?20 次,知危馬上沖過去做了測評。

早在 v2.0 版本于上個月開源的時候,知危就做了一些嘗試。通過在線體驗(yàn),知危實(shí)測能夠通過 v2.0 版本獲得不錯的 3D 對象,其中分別驗(yàn)證了單圖生成、多視圖生成和骨骼綁定的效果。

比如單圖生成《 數(shù)碼寶貝 》中的暴龍獸,還原度簡直不要太高。

輸入圖:

暴龍獸( 圖源:DeviantArt )

輸出:

再通過單圖生成一個戰(zhàn)斗暴龍獸,不僅是整體形態(tài),連盔甲的嵌套結(jié)構(gòu)都還原了出來。

輸入圖:

戰(zhàn)斗暴龍獸( 圖源:eBay )

輸出:

接下來是通過多張照片生成的粉色史迪仔,黃色小圍巾其實(shí)不是娃娃自帶的,而是后面綁上去的,也還原的很好,后腦勺的花紋沒有還原有點(diǎn)可惜。

輸入圖:

輸出:

最后是《 辛普森一家 》中的 Homer,v2.0 不僅生成了完整的 3D 模型,還可以通過綁定骨骼,讓 Homer 跳起舞來。

輸入圖:

Homer Simpson( 圖源:TurboSquid )

輸出圖:

據(jù)了解,混元 3D 的開源生態(tài)已經(jīng)比較豐富,包括 1.0、2.0 基礎(chǔ)模型及基于 2.0 ?模型的加速、多視圖和輕量級模型均已開源,Github 總 star 數(shù)超 1.2 萬。

截至目前,v2.0 版本已在 Hugging Face 上的 “ image to 3d ” 模型類別中達(dá)成了總下載量第二的成績( 下載量 529k 次,僅次于 TRELLIS-image-large 的1.01M 次 )。

相比 v2.0 版本,混元 3D v2.5 模型總參數(shù)量從 1B 提升至 10B,有效面片數(shù)增加超 10 倍,表面更平整、邊緣更銳利、細(xì)節(jié)更豐富,有效幾何分辨率達(dá)到1024,“ 就像從標(biāo)清升級到了超清畫質(zhì)?!?/p>

比如這張官方展示的法線圖,人臉、身體、翅膀都有非常清晰的輪廓和細(xì)節(jié)結(jié)構(gòu)。

再看看知危的實(shí)測效果,對比 v2.0 版本和 v2.5 版本的暴龍獸法線圖,在皮膚紋理、頭骨邊界甚至角的紋理等細(xì)節(jié)的差距非常明顯。

貼圖質(zhì)量也更加好,陰影效果很明顯。

通過 v2.5 版本生成并添加了 PBR 貼圖的戰(zhàn)斗暴龍獸,也更有了實(shí)體模型的感覺,只是這次頭盔上的角沒有還原是個小遺憾。

我們還嘗試了文生 3D,下圖是通過文生 3D 得到的中世紀(jì)騎士持劍騎馬的形象,添加了 PBR 貼圖,除了戰(zhàn)馬身上的布匹不夠破爛、角狀頭盔羽冠成了角之外,基本都遵循了提示,紋理質(zhì)量和光影效果也很好。

提示詞:

一位中世紀(jì)騎士騎著戰(zhàn)馬馳騁,他身披華麗卻飽經(jīng)戰(zhàn)火的盔甲,披著飄逸的斗篷,手持巨大的劍。騎士的盔甲上鐫刻著符文,部分已然失去光澤,頭盔上窄窄的面甲上飾有角狀的羽冠。戰(zhàn)馬肌肉發(fā)達(dá),身披金屬鎧甲,披著破爛的布匹。

然后是 3D 人臉生成,這是單圖生成的 3D 版莫扎特。

對比原圖,可以看到雖然 3D 對象本身質(zhì)量很高,但和本人沒那么像,結(jié)合社區(qū)的反饋,混元 3D 目前對人臉細(xì)微特征的還原度確實(shí)還不夠高。

莫扎特畫像( 圖源:維基百科 )

最后提醒一下,在做單圖生成的時候,輸入圖片的視角很重要,最好是 45 度側(cè)視角,這樣能包含足夠多的對象信息。如果是正視圖,是有較大概率失敗的。

比如在 v2.0 版本下生成的亞古獸,頭部過于扁平了。

輸入原圖是:

亞古獸( 圖源:DigimonWiki )

這僅僅是一次輕量級的測評,混元 3D 還有大量功能比如智能減面、紋理生成、草圖生 3D、小游戲創(chuàng)作等可以去嘗試。

AI 生 3D 技術(shù)發(fā)展迅速,但其實(shí)整體還處在非常早期的階段,真實(shí)性和可控性都是初級水平,這也是目前在技術(shù)層面解放開發(fā)者創(chuàng)意發(fā)揮的最大障礙。

眼下,越來越多獨(dú)立開發(fā)者或小型工作室將AI生成內(nèi)容嵌入游戲中,以增強(qiáng)游戲內(nèi)容的多樣性和不確定性,以及降低開發(fā)成本,比如“ Infinite Craft ”、“ ChatNPC ”、“ Talking Coin ”、“ telAIphone ”、“ 沙威瑪傳奇 ” 等。其中,“ 沙威瑪傳奇 ” 大量使用了 AI 作畫、AI 作曲、AI 配音。

然而,不同模態(tài)的 AI 生成技術(shù),要整合進(jìn)復(fù)雜的人類工作流,都要先后經(jīng)歷真實(shí)性和可控性兩道大關(guān),目前各自發(fā)展成熟度差距明顯。文本生成已經(jīng)到探索強(qiáng)推理的階段;圖像生成剛剛見證 GPT-4o 帶來的精準(zhǔn)文字、圖表生成能力;視頻生成的角色和場景一致性不斷增強(qiáng),但動態(tài)和物理理解仍有欠缺,尚未邁過第一道坎。

為深入了解 AI 生 3D 技術(shù)的場景落地現(xiàn)狀和商業(yè)化前景,知危和騰訊混元技術(shù)專家就該主題進(jìn)行了溝通,并將場景聚焦在游戲行業(yè)。

技術(shù)層面,AI 生成 3D 的技術(shù)路線并未固定,比如模型架構(gòu)是采用擴(kuò)散模型、歸一化流還是 GAN。

騰訊混元也向知危表示:“ AI 3D 在技術(shù)層面存在的探索空間還非常大,在各方面都存在顯著提升模型能力的可能性。數(shù)據(jù)層面是老生常談,不僅僅是量,還包括如何挖掘已有數(shù)據(jù)里額外的有效信息?!?/p>

“ 生成模型現(xiàn)在主流的方案包括一階段或多階段,以及生成 3D 到底是使用格點(diǎn)相關(guān)的表達(dá)還是點(diǎn)云相關(guān)的表達(dá),各自有各自的優(yōu)勢和局限。另外,生成模型如何引入正確的輸入條件,如何進(jìn)行合理的 scale-up( 規(guī)模化擴(kuò)展 ),仍然有很多值得探索的問題?!?/p>

“ 最后,如何對一個復(fù)雜模型或者場景模型進(jìn)行有效的分部件生成并仍然保有可端到端學(xué)習(xí)的可能,也是一個重大的挑戰(zhàn)?!?/p>

盡管路線遠(yuǎn)未成熟,但按照過往經(jīng)驗(yàn),不同方向的 AI 技術(shù)都有互相促進(jìn)的可能。包括機(jī)器人、圖像生成等,大語言模型在各種領(lǐng)域都有作為基礎(chǔ)模型增強(qiáng)AI生成的潛力,比如智元機(jī)器人 GO-1 將視覺大語言模型接入決策模型中。

騰訊混元團(tuán)隊(duì)認(rèn)同這個思路:“ 模型的路線并非非此即彼,往往相互間都有可以借鑒之處,應(yīng)該說現(xiàn)在技術(shù)的發(fā)展確實(shí)多面開花,如何集成各自優(yōu)秀的能力并去除各自的局限,也是一個重要的命題?!?/p>

對于 3D 生成,目前與大語言模型的結(jié)合主要在于開發(fā)工作流方面,而不是底層的模型層面,但已經(jīng)能帶來大量的收益。

首先是提升開發(fā)交互的體驗(yàn)并降低使用門檻,騰訊混元表示:“ 大語言模型的快速發(fā)展確實(shí)對 AI 3D 生成產(chǎn)生了顯著的促進(jìn)作用,尤其在自然語言交互的 3D 生成控制、場景邏輯推理等方面?!?/p>

“ 舉例子來講,在文本生成3D物體模型的場景,語言模型一方面可以加強(qiáng)文本到3D指令解析的準(zhǔn)確性,將相對模糊的文本描述轉(zhuǎn)換為更具體的3D模型生成參數(shù)。” ?這對需求并不特別明確的開發(fā)者比較友好。

“ 另一方面,通過多步驟指令拆解可以生成可控性更高的 3D 模型?!?也就是說對于需求明確而復(fù)雜的開發(fā)者,借助大語言模型能提升復(fù)雜意圖理解能力,顯著降低開發(fā)者工作量。

描述 3D 物體的語言這一中間模態(tài)是非常關(guān)鍵的一部分,可以是專業(yè)化的自然語言,也可以是專業(yè)開發(fā)引擎的代碼。比如 Meta 提出的 SceneScript,可以將視覺輸入轉(zhuǎn)換為描述建筑布局、物體邊界框的語言,適用于 AR 應(yīng)用;近期由于 Claude 3.7 Sonnet 的發(fā)布,社區(qū)里嘗試用 Claude+MCP+Blender 的組合來生成 3D 資產(chǎn),也是打開了新思路。這類方法專注于強(qiáng)化語言的精確性、邏輯性,以此保證生成的 3D 資產(chǎn)滿足實(shí)用需求,并避免了類似擴(kuò)散模型生成 3D 資產(chǎn)的不可預(yù)測的各種小缺陷。

但騰訊混元向知危指出了這類方法的利弊:“ 結(jié)合語言模態(tài),對一些垂類場景( 比如建筑語言/CAD等 )可以給模型帶來比較有用先驗(yàn)的幫助。不過對于更通用的場景,缺少足夠結(jié)構(gòu)化的語言模態(tài)表示,語言模態(tài)更多只是起到輔助的作用?!?/p>

“ 至于 Claude+MCP+Blender 的組合,這是一個產(chǎn)品的解決思路,不是一個技術(shù)路線。從產(chǎn)品維度也存在其他解決方案的可能,這需要我們與行業(yè)界尤其是高價(jià)值游戲制作者進(jìn)行碰撞逐步演進(jìn)。從技術(shù)路線來講,仍然需要考慮模型的生成穩(wěn)定性、質(zhì)量、組件分離和可編輯性?!?/p>

業(yè)內(nèi)也有不少圍繞通用的視頻大模型能否取代專用的 3D 生成模型的討論,特別是在谷歌 Genie 2、李飛飛團(tuán)隊(duì) World Labs 的開放世界游戲研究成果發(fā)布、以及近期視頻生成模型的飛躍式進(jìn)步的背景下。類似地,GPT-4o 的圖像生成能力也實(shí)現(xiàn)了通用模型對專用模型的降維打擊。

但騰訊混元認(rèn)為,這兩者還是有區(qū)別的,“ 視頻用于觀看,3D 資產(chǎn)用于實(shí)時交互、建模管線使用等。視頻大模型可以為 3D 生成模型帶來額外的收益,但是純粹的替代是不可行的。因?yàn)橐曨l模型到 3D,本質(zhì)上是涉及一個 2D 到 3D 的重建過程。視頻難以處理自遮擋、幾何結(jié)構(gòu)、拓?fù)涞扔螒蚬芫€里必須要解決的問題,因此無法替代 3D 生成模型。對于游戲管線需要的資產(chǎn),視頻模型可以用于做原型驗(yàn)證,但不會用于實(shí)際的游戲?qū)崟r操控?!?/p>

實(shí)際上,微軟就曾在 WHAM ( World and Human Action Model,世界與人類行為模型 ) 這項(xiàng)研究中探討了視頻模型用于原型驗(yàn)證的可行性。視頻模型對于原型驗(yàn)證提供了快速便捷的方案。

另外,WHAM 也特別強(qiáng)調(diào)了迭代實(shí)踐也就是交互聯(lián)動的重要性??焖俚爻尸F(xiàn)效果非常重要,WHAM 訪談的游戲開發(fā)者表示 “ 在我們看到正確的輸出之前,很難知道它是什么 ”。

騰訊混元也向知危強(qiáng)調(diào)了這一點(diǎn),“ 一個優(yōu)秀的生成模型要擁有好的編輯性,有可控的質(zhì)量和修改能力,這一點(diǎn)整個領(lǐng)域還處在早期?!?/p>

密集的交互聯(lián)動目前是 AI 深入人類工作流的最佳模式,完全交給 AI Agent 還是不夠可靠,可能導(dǎo)致錯誤難以追溯。

專業(yè)的游戲創(chuàng)作者真正關(guān)心的是微創(chuàng)新,“ 細(xì)節(jié)才是真正令人驚嘆的游戲體驗(yàn)的關(guān)鍵 ”,他們需要快速地在不同的迭代之間進(jìn)行動態(tài)的來回探索,以汲取靈感并嘗試融合不同元素的可能性。

當(dāng)下不少 AI 產(chǎn)品都在強(qiáng)調(diào) “ 一鍵生成 ”,但這是一種粗糙的創(chuàng)意探索方式,主要面向小白用戶。如果一個 AI 工具能夠限定自己的邊界,提供最具可靠性的中間輸出,并能無縫接入后續(xù)的非 AI 工具,或者能利用 AI 進(jìn)行細(xì)微的迭代測試,才稱得上是 “ 成熟穩(wěn)重 ” 的 AI 產(chǎn)品設(shè)計(jì),專業(yè)開發(fā)者才會為此買單,不過這對于 AI 模型的能力要求也很高。

騰訊混元補(bǔ)充道:“ 隨著大語言模型本身能力的持續(xù)提升,其可以輔助開發(fā)者生成更符合現(xiàn)實(shí)物理規(guī)律或規(guī)則的 3D 場景,并且可以與場景中的行為通過自然語言的方式進(jìn)行交互聯(lián)動?!?/p>

AI 3D 生成在實(shí)際落地中如果不能直接用于開發(fā)生產(chǎn),也會將其用于輔助開發(fā)或 Demo 測試上,當(dāng)然,相比視頻模型,AI 3D 生成的場景滲透更加深入,“ 這個問題需要區(qū)分游戲類型,對于輕小游戲,混元 3D 搭建了游戲 AI 3D 管線,生成的資產(chǎn)在輕/小游戲的場景,基本上已經(jīng)達(dá)到實(shí)際生產(chǎn)可用水平了。而在一些對建模精度要求更高的場景,AI 3D 生成的結(jié)果會應(yīng)用于快速原型驗(yàn)證、Demo 搭建以及一些背景、遠(yuǎn)景物體的生成,可以縮短游戲迭代的周期。而對于高精場景的核心資產(chǎn)生成可用方面,我們還在繼續(xù)努力?!?/p>

綜上,AI 生 3D 技術(shù)路線尚未統(tǒng)一,產(chǎn)品特性比如多輪可編輯性等方面的局限性限制了產(chǎn)品的全面創(chuàng)新。而在不同類型的具體場景中,其應(yīng)用深度也是有所區(qū)別的。

騰訊混元向知危表示:“ 當(dāng)前全球 UGC 游戲行業(yè)的市場規(guī)模已經(jīng)超百億美元,年增速也在不斷增加。其中,AI 生成 3D 工具的滲透率在快速提升,主要的商業(yè)模式包括玩家游戲內(nèi)購以及在 UGC 內(nèi)容中植入品牌廣告進(jìn)行盈利。玩家游戲內(nèi)購有較大的高利潤率,且用戶付費(fèi)意愿較強(qiáng),但依賴用戶活躍度和創(chuàng)作生態(tài);廣告盈利更適合用戶基數(shù)大的平臺,但在一定程度上會影響用戶體驗(yàn),可能導(dǎo)致用戶流失?!?/p>

UGC 只是娛樂,開發(fā)才是真試煉場。AI 3D 生成在專業(yè)開發(fā)群體中接受度不高,也是不爭的事實(shí),比如生成人臉 3D 模型的拓?fù)渚珳?zhǔn)度過低,很多開發(fā)者抱怨修改難度太大,甚至高于從零開始構(gòu)建的成本,騰訊混元表示:“ 更具體來說,是小尺寸人臉拓?fù)渚容^低。這是 AI 3D 生成的普遍現(xiàn)狀,這也是我們目前正在攻克的一個方向?!?/p>

“ 小尺寸人臉占身體比例過小,很大概率會非常模糊,所以用 AI 生成和從頭建模沒太大區(qū)別。當(dāng)然對于一些大頭照,我們的模型還是可以獲得一個有一定細(xì)節(jié)的人臉,還是能加速建模流程的?!?/p>

綜合來看,從 UGC 應(yīng)用到專業(yè)模型開發(fā),其技術(shù)難度從易到難,在業(yè)界看來,是一條有效的落地路徑,“ 從易到難的場景分類可以是游戲 AI 3D 生成逐步落地、反饋迭代的有效方式。逐步落地意味著從較簡單的場景開始,逐漸擴(kuò)展到更復(fù)雜的場景,以確保技術(shù)的可行性和有效性。這種漸進(jìn)式的方法可以幫助研發(fā)團(tuán)隊(duì)逐步適應(yīng)和應(yīng)用游戲 AI 3D 生成技術(shù),同時從用戶和市場的反饋中不斷改進(jìn)和迭代。

“ 其它落地路線可能是針對游戲開發(fā)痛點(diǎn)進(jìn)行單點(diǎn)突破,并展示游戲 AI 3D 生成技術(shù)的應(yīng)用案例和演示,以證明其潛力和效果,吸引更多業(yè)務(wù)與用戶進(jìn)行合作。”

而基于騰訊混元的落地經(jīng)驗(yàn),他們希望構(gòu)建 B 端、C 端之間的反饋循環(huán),“ 我們嘗試從 B 端滲透 C 端,先瞄準(zhǔn) B 端的場景,因?yàn)?B 端是主要的 3D 消費(fèi)途徑,立足于基礎(chǔ)模型瞄準(zhǔn) B 端的實(shí)際應(yīng)用需求,我們也逐漸彌補(bǔ)了沒有覆蓋到的 3D 矩陣能力。在滿足了 B 端使用需求的前提下,我們開始探索 C 端的一些應(yīng)用場景,通過 C 端的數(shù)據(jù)積累與反饋閉環(huán),持續(xù)驗(yàn)證市場需求,可以再反哺回 B 端場景完成價(jià)值深化?!?/p>

隨著業(yè)余愛好者的社區(qū)活躍度愈發(fā)高漲,當(dāng)前,游戲領(lǐng)域的 AI 3D 生成的用戶、創(chuàng)作者、開發(fā)者等角色界限逐漸模糊。

騰訊混元表示也希望順應(yīng)這個趨勢,用開源工具進(jìn)一步助力用戶和開發(fā)者參與進(jìn)來。不僅是游戲開發(fā)者,騰訊混元 3D 的開源還吸引了工業(yè)設(shè)計(jì)師、具身智能研究者等多方參與,推動技術(shù)從游戲擴(kuò)展至自動駕駛、影視制作等場景。

提及騰訊混元 3D 開源的初衷,騰訊混元表示:“ 在 3D 生成領(lǐng)域,此前一直缺乏高質(zhì)量的開源基礎(chǔ)模型,導(dǎo)致學(xué)術(shù)研究與工業(yè)應(yīng)用之間存在斷層。我們也很重視用戶反饋,例如社區(qū)提出的輕量版部署、加速、多視圖生成、貼圖優(yōu)化、減面等需求已融入 Hunyuan3D 2.0 并開源?!?/p>

“ 下一步計(jì)劃,將繼續(xù)圍繞生成質(zhì)量和功能性展開?!?/p>

騰訊混元沒有食言,新發(fā)布的 v2.5 版本更新恰好帶來了生成質(zhì)量的提升。

在此,知危也和各位玩家、社區(qū)開發(fā)者繼續(xù)期待一波騰訊混元 3D 未來的新成果。

撰文:流大古 編輯:大餅
本文由人人都是產(chǎn)品經(jīng)理作者【知?!?,微信公眾號:【知?!?,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
"="" class="meta">09-262110 瀏覽
"="" class="meta">
"="" class="meta"> "="" src="https://image.woshipm.com/2023/04/13/8b7e302a-d9eb-11ed-a6e8-00163e0b5ff3.jpg!/both/120x80" alt="了解用戶需求:超全面產(chǎn)品經(jīng)理的用戶研究技巧!(下)">
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!