主流 AI 生成 3D 技術(shù)流派辨析:Text-to-3D, Image-to-3D 與 NeRF 應(yīng)用概覽 (AI+3D 產(chǎn)品經(jīng)理筆記 S2E02)

0 評(píng)論 1667 瀏覽 6 收藏 50 分鐘
🔗 B端产品经理需要更多地关注客户的商业需求、痛点、预算、决策流程等,而C端产品经理需要更多地关注用户的个人需求

AI生成3D技術(shù)正在迅速改變我們創(chuàng)造和體驗(yàn)三維內(nèi)容的方式。從文本到圖像,再到復(fù)雜的三維模型,AI技術(shù)的多樣性為產(chǎn)品設(shè)計(jì)、游戲開(kāi)發(fā)、虛擬現(xiàn)實(shí)等多個(gè)領(lǐng)域帶來(lái)了前所未有的機(jī)遇。

引言:從“指令”到“立體”的技術(shù)光譜

在上一篇筆記(S2E01)中,我們共同探討了 AI 生成 3D 技術(shù)之所以在當(dāng)前節(jié)點(diǎn)迎來(lái)爆發(fā)的深層驅(qū)動(dòng)力,分析了它旨在解決的行業(yè)核心痛點(diǎn),并對(duì)現(xiàn)階段的技術(shù)挑戰(zhàn)與局限建立了初步的理性認(rèn)知。我們認(rèn)識(shí)到,AI+3D 并非單一的技術(shù)魔法,而是一個(gè)包含多種路徑、處于不同發(fā)展階段的技術(shù)集合。這種多樣性源于問(wèn)題的復(fù)雜性以及可用數(shù)據(jù)和計(jì)算資源的限制,迫使研究者探索不同的策略來(lái)彌合抽象指令(如文本)或低維數(shù)據(jù)(如圖像)與高維、結(jié)構(gòu)化的 3D 輸出之間的鴻溝。

那么,當(dāng)我們談?wù)摗癆I 生成 3D”時(shí),具體指的是哪些主流的技術(shù)方法或流派呢?它們各自的工作邏輯是怎樣的?需要什么樣的輸入?能產(chǎn)生什么樣的輸出?又分別適用于哪些應(yīng)用場(chǎng)景?理解這些不同技術(shù)流派的特點(diǎn)、優(yōu)勢(shì)與局限,是產(chǎn)品經(jīng)理進(jìn)行技術(shù)選型、定義產(chǎn)品功能、評(píng)估可行性的基礎(chǔ)。未能區(qū)分這些技術(shù)的光譜,可能導(dǎo)致產(chǎn)品定位失誤、用戶預(yù)期錯(cuò)配或技術(shù)路線選擇不當(dāng)。

本篇筆記(S2E02)將聚焦于梳理和辨析當(dāng)前備受關(guān)注的幾種主流 AI 生成 3D 技術(shù)流派,主要包括:

  • Text-to-3D (文本到三維): 如何讓 AI 根據(jù)一段文字描述“憑空”創(chuàng)造出 3D 模型?
  • Image-to-3D (圖像到三維): 如何從單張或多張二維圖像中恢復(fù)或生成對(duì)應(yīng)的 3D 結(jié)構(gòu)?
  • NeRF (神經(jīng)輻射場(chǎng)): 作為一種強(qiáng)大的場(chǎng)景表示和渲染技術(shù),它在 3D 重建和生成中扮演著怎樣的角色?
  • (可能涉及) Sketch-to-3D (草圖到三維) 及其他: 其他值得關(guān)注的交互式生成方式。

我們將嘗試從產(chǎn)品經(jīng)理的視角,深入淺出地解析這些技術(shù)流派的基本原理、輸入輸出特性、典型的應(yīng)用場(chǎng)景以及初步的優(yōu)劣勢(shì)對(duì)比。目標(biāo)是幫助大家建立一個(gè)關(guān)于 AI 生成 3D 技術(shù)“光譜”的清晰認(rèn)知地圖,認(rèn)識(shí)到它們并非相互排斥,而是常常相互借鑒、融合,共同推動(dòng)著領(lǐng)域的發(fā)展。為后續(xù)更深入的技術(shù)探討和產(chǎn)品思考打下堅(jiān)實(shí)基礎(chǔ)。

一、 Text-to-3D:用語(yǔ)言“召喚”三維實(shí)體

Text-to-3D 無(wú)疑是近年來(lái) AI+3D 領(lǐng)域最引人入勝、也最具“魔法感”的方向之一。它的核心目標(biāo)是讓用戶能夠僅僅通過(guò)輸入一段自然語(yǔ)言文本描述(例如,“一個(gè)坐在扶手椅上看書的宇航員”,“一個(gè)帶有銹跡和劃痕的蒸汽朋克風(fēng)格的機(jī)械臂”),就能讓 AI 自動(dòng)生成對(duì)應(yīng)的三維模型。這極大地降低了 3D 內(nèi)容創(chuàng)作的門檻,使得沒(méi)有任何 3D 建模經(jīng)驗(yàn)的用戶也能將想象中的物體或場(chǎng)景快速具象化。這種潛力對(duì)于游戲開(kāi)發(fā)、虛擬現(xiàn)實(shí)、影視制作等需要大量 3D 內(nèi)容的行業(yè)具有革命性意義。

實(shí)現(xiàn)高質(zhì)量的 Text-to-3D 并非易事,它需要模型同時(shí)具備強(qiáng)大的自然語(yǔ)言理解能力、豐富的世界知識(shí)以及生成復(fù)雜三維幾何結(jié)構(gòu)的能力。由于直接建立文本與高質(zhì)量 3D 模型之間映射關(guān)系的大規(guī)模配對(duì)數(shù)據(jù)集極為稀缺,研究者們探索了多種間接的技術(shù)路徑。

1?? 核心技術(shù)路徑與演進(jìn)

實(shí)現(xiàn)高質(zhì)量的 Text-to-3D 并非易事,它需要模型同時(shí)具備強(qiáng)大的自然語(yǔ)言理解能力、豐富的世界知識(shí)以及生成復(fù)雜三維幾何結(jié)構(gòu)的能力。目前主流的技術(shù)路徑大致可以分為幾類:

a. 基于 CLIP + 優(yōu)化/生成器 的早期探索

核心思路:

  • ① 借鑒 Text-to-Image: 利用 CLIP 強(qiáng)大的跨模態(tài)(文本-圖像)對(duì)齊能力作為“語(yǔ)義引導(dǎo)”。
  • ② 定義 3D 表示: 如 NeRF、SDF 或直接操作 Mesh 頂點(diǎn)。
  • ③ 渲染與評(píng)估: 從不同虛擬視角渲染 3D 表示得到 2D 圖像,用 CLIP 計(jì)算渲染圖與輸入文本的相似度得分。
  • ④ 優(yōu)化: 以最大化 CLIP 相似度為目標(biāo),通過(guò)反向傳播優(yōu)化 3D 表示參數(shù)或驅(qū)動(dòng) 3D 生成器網(wǎng)絡(luò)。

代表性工作:

  • Dream Fields: 直接優(yōu)化 NeRF 參數(shù)。
  • CLIP-Forge: 兩階段方法,先訓(xùn)練 3D 形狀自編碼器,再訓(xùn)練以 CLIP 圖像特征為條件的歸一化流生成形狀嵌入,推理時(shí)用 CLIP 文本特征驅(qū)動(dòng)生成。

優(yōu)缺點(diǎn):

  • 優(yōu)點(diǎn): 巧妙利用預(yù)訓(xùn)練 CLIP,繞開(kāi)缺乏文本-3D 配對(duì)數(shù)據(jù)的難題;CLIP-Forge 生成速度相對(duì)較快。
  • 缺點(diǎn): 優(yōu)化過(guò)程緩慢,易陷局部最優(yōu);缺乏固有 3D 理解,幾何質(zhì)量和三維一致性差,易出現(xiàn)“Janus 問(wèn)題”(前后都有臉等矛盾特征)。

b. 基于 2D 擴(kuò)散模型的“蒸餾” (Score Distillation Sampling – SDS)

核心思想: 利用強(qiáng)大的預(yù)訓(xùn)練 2D 文本到圖像擴(kuò)散模型(如 Imagen, Stable Diffusion)作為“教師”,將其二維生成能力“蒸餾”到三維表示(常用 NeRF 或 SDF)的學(xué)習(xí)中。

工作流程:

  • ① 初始化 3D 表示。
  • ② 隨機(jī)視角渲染: 得到 2D 圖像。
  • ③ 2D 擴(kuò)散模型評(píng)分: 將渲染圖和文本 Prompt 輸入 2D 擴(kuò)散模型,利用其去噪網(wǎng)絡(luò)估計(jì)一個(gè)“分?jǐn)?shù)”或“梯度”,指示如何修改 2D 圖像使其更符合文本。
  • ④ 3D 表示更新: 利用 SDS 算法,根據(jù) 2D 分?jǐn)?shù)計(jì)算更新 3D 表示參數(shù)的梯度,使其在任意視角渲染下都更符合文本。
  • ⑤ 迭代優(yōu)化: 大量迭代直至 3D 表示收斂。

代表性工作:

  • DreamFusion (Google): 開(kāi)創(chuàng)性工作。
  • Magic3D (Nvidia): 兩階段優(yōu)化(低分粗糙+高分精細(xì)),提高質(zhì)量、分辨率和速度。
  • ProlificDreamer: 提出 VSD,旨在解決 SDS 的過(guò)飽和、過(guò)平滑、低多樣性問(wèn)題。

優(yōu)缺點(diǎn):

  • 優(yōu)點(diǎn): 生成細(xì)節(jié)更豐富、三維一致性更好(Janus 問(wèn)題緩解)、語(yǔ)義更準(zhǔn)確。
  • 缺點(diǎn): 訓(xùn)練(優(yōu)化)過(guò)程仍非常耗時(shí)(小時(shí)級(jí));對(duì) Prompt 敏感,需“提示工程”技巧。

c. 直接在 3D 表示上進(jìn)行擴(kuò)散

核心思想: 嘗試直接在三維數(shù)據(jù)表示(點(diǎn)云、體素、參數(shù)化 Mesh/SDF)上應(yīng)用擴(kuò)散模型,避免 SDS 的優(yōu)化循環(huán)。

代表性工作:

  • Point-E (OpenAI): 三步流程(文本到圖像 -> 圖像到低分點(diǎn)云擴(kuò)散 -> 低分到高分點(diǎn)云擴(kuò)散),速度較快(1-2 分鐘)。
  • Shap-E (OpenAI): 直接在隱式函數(shù)參數(shù)空間(可解碼為紋理網(wǎng)格或 NeRF)進(jìn)行擴(kuò)散,生成速度相對(duì)較快,但公開(kāi)模型細(xì)節(jié)有限。
  • 挑戰(zhàn)與優(yōu)勢(shì):
  • 挑戰(zhàn): 3D 數(shù)據(jù)維度高、結(jié)構(gòu)復(fù)雜,高質(zhì)量、大規(guī)模、帶標(biāo)注的 3D 訓(xùn)練數(shù)據(jù)稀缺,訓(xùn)練強(qiáng)大的 3D 擴(kuò)散模型難度大。
  • 潛在優(yōu)勢(shì): 推理速度可能更快。
  • 現(xiàn)狀: 目前在生成質(zhì)量和細(xì)節(jié)上普遍不如基于 SDS 的方法。

d. 結(jié)合檢索與生成

  • 核心思想: 給定文本描述,先在大型 3D 模型庫(kù)中檢索語(yǔ)義相似的模型,然后將其作為生成過(guò)程的起點(diǎn)、參考或組成部分,再利用生成模型進(jìn)行修改、組合或添加細(xì)節(jié)。
  • 優(yōu)勢(shì): 有助于利用現(xiàn)有高質(zhì)量資產(chǎn)的結(jié)構(gòu)和細(xì)節(jié),提高生成結(jié)果質(zhì)量和結(jié)構(gòu)合理性。
  • 依賴: 效果高度依賴所用 3D 數(shù)據(jù)庫(kù)的規(guī)模、質(zhì)量和多樣性。

2?? 輸入、輸出與典型應(yīng)用場(chǎng)景

輸入:

  • 核心: 自然語(yǔ)言文本描述 (Text Prompt)。Prompt 質(zhì)量(清晰度、細(xì)節(jié)、具體性)影響巨大。
  • 輔助: 可能支持否定提示、風(fēng)格關(guān)鍵詞、圖文混合提示、迭代式文本指導(dǎo)。

輸出 (通常需后處理):

  • ① 隱式表示 (Implicit Representation): NeRF 或 SDF,需后續(xù)提取為 Mesh (如用 Marching Cubes)。
  • ② 點(diǎn)云 (Point Cloud): 如 Point-E 輸出,需表面重建得到 Mesh。
  • ③ 體素網(wǎng)格 (Voxel Grid): 分辨率有限,外觀塊狀,需平滑處理并轉(zhuǎn)為 Mesh。
  • ④ 顯式網(wǎng)格 (Explicit Mesh): 如 Magic3D 或 GET3D 輸出,但通常拓?fù)洳灰?guī)則、面片質(zhì)量差,需拓?fù)鋬?yōu)化 (Retopology)、UV 修復(fù)等。
  • · 顏色信息: 通常生成頂點(diǎn)色或低分辨率紋理貼圖。

典型應(yīng)用場(chǎng)景:

  • ① 快速概念設(shè)計(jì)與原型制作: 為設(shè)計(jì)師、藝術(shù)家、開(kāi)發(fā)者提供快速可視化工具,用于早期評(píng)審、頭腦風(fēng)暴、溝通、迭代。
  • ② 個(gè)性化內(nèi)容生成: 在元宇宙、虛擬社交、游戲中,讓用戶通過(guò)文本創(chuàng)建獨(dú)特虛擬化身、服裝、道具、家園裝飾。
  • ③ 教育與創(chuàng)意啟發(fā): 激發(fā)想象力、輔助學(xué)習(xí) 3D 概念、降低創(chuàng)作門檻。
  • ④ 填充虛擬世界背景: 快速生成大量非關(guān)鍵性背景道具或環(huán)境元素(需注意質(zhì)量一致性)。
  • ⑤ 輔助營(yíng)銷內(nèi)容創(chuàng)作: 快速生成用于廣告、社交媒體的簡(jiǎn)單 3D 視覺(jué)元素。

3?? 優(yōu)勢(shì)與局限性 (產(chǎn)品視角)

優(yōu)勢(shì):

  • ① 極低的創(chuàng)作門檻: 無(wú)需專業(yè)技能,自然語(yǔ)言即可創(chuàng)作,擴(kuò)展創(chuàng)作者群體。
  • ② 極高的創(chuàng)作效率 (概念階段): 分鐘/小時(shí)級(jí)獲得初步結(jié)果,相比傳統(tǒng)手工(天/周級(jí))效率提升巨大。
  • ③ 激發(fā)創(chuàng)意與想象力: 語(yǔ)言靈活性和模型隨機(jī)性支持嘗試各種想法,探索傳統(tǒng)工具難實(shí)現(xiàn)組合。

局限性:

  • ① 生成質(zhì)量不穩(wěn)定且普遍不高: 幾何細(xì)節(jié)、紋理清晰度、拓?fù)湟?guī)整性等普遍達(dá)不到專業(yè)要求,需大量后期修復(fù)。
  • ② 可控性差: 難通過(guò) Prompt 精確控制尺寸、比例、位置、特定細(xì)節(jié)?!伴_(kāi)盲盒”感強(qiáng),難穩(wěn)定復(fù)現(xiàn)或精確迭代。
  • ③ 三維一致性問(wèn)題: 即使 SDS 有所改善,仍可能出現(xiàn)視角間結(jié)構(gòu)矛盾(Janus 問(wèn)題)。
  • ④ 計(jì)算資源消耗大/生成速度慢: 尤其 SDS 方法,需較長(zhǎng)計(jì)算時(shí)間(GPU 小時(shí)級(jí)),難實(shí)時(shí)交互。直接生成方法更快但質(zhì)量通常更低。
  • ⑤ 輸出格式與下游可用性: 輸出模型需復(fù)雜后處理(網(wǎng)格提取、拓?fù)鋬?yōu)化、UV 重建、材質(zhì)調(diào)整、綁定等)才能整合到專業(yè)工作流。

產(chǎn)品視角總結(jié): 當(dāng)前核心價(jià)值在于加速概念探索和降低創(chuàng)作門檻,而非取代傳統(tǒng)建模。產(chǎn)品定位應(yīng)側(cè)重靈感激發(fā)、快速原型、個(gè)性化娛樂(lè)等,需管理用戶對(duì)質(zhì)量和可控性的預(yù)期。

4?? 代表性技術(shù)/模型/工具與討論

① CLIP-Guided Optimization:

Dream Fields: Zero-Shot Text-Guided Object Generation with Dream Fields

(來(lái)源:https://arxiv.org/abs/2112.01455)

CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation

(來(lái)源:https://arxiv.org/abs/2110.02624)

② Score Distillation Sampling (SDS) & Variants:

DreamFusion (Google): Text-to-3D using 2D Diffusion

(來(lái)源: https://dreamfusion3d.github.io/)

Magic3D (Nvidia): High-Resolution Text-to-3D Content Creation

(來(lái)源:https://deepimagination.cc/Magic3D/)

ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation

(來(lái)源:https://arxiv.org/abs/2305.16213)

③ Direct 3D Diffusion:

Point-E (OpenAI): A system for generating 3D point clouds from complex prompts

(來(lái)源:https://openai.com/index/point-e/)

Shap-E (OpenAI): Generating Conditional 3D Implicit Functions

(來(lái)源:GitHub, https://arxiv.org/abs/2305.02463)

④ Representative Tools/Platforms:

Luma Genie: Luma AI’s Text-to-3D Tool

(來(lái)源:https://lumalabs.ai/genie?view=create)

Masterpiece X: AI-Powered 3D Model Generation

(來(lái)源:https://www.masterpiecex.com/)

Meshy AI: The #1 AI 3D Model Generator

(來(lái)源:https://www.meshy.ai/discover)

⑤ Quality & Challenge Discussion:

Janus Problem and View Inconsistency Analysis: Debiasing Score Distillation for Text-to-3D Generation

(來(lái)源:https://openreview.net/forum?id=jgIrJeHHlz)

A Quick Look at Text-to-3D Methods

(來(lái)源:https://www.pkowalski.com/?p=2415)

二、 Image-to-3D:從二維圖像“還原”三維世界

Image-to-3D 技術(shù)的目標(biāo)是從輸入的單張或多張二維圖像中恢復(fù)、重建或生成對(duì)應(yīng)的三維模型。相比于 Text-to-3D 的“無(wú)中生有”,Image-to-3D 更側(cè)重于利用圖像中包含的豐富視覺(jué)信息——例如物體的輪廓、表面的紋理、光照產(chǎn)生的明暗、以及物體間的遮擋關(guān)系等線索——來(lái)推斷其三維結(jié)構(gòu)。根據(jù)輸入圖像的數(shù)量(單張 vs 多張)和類型(照片 vs 繪畫),以及技術(shù)目標(biāo)(精確重建 vs 合理生成)的不同,Image-to-3D 可以細(xì)分為多個(gè)子方向。

1?? 主要技術(shù)分支與方法

a. 單視圖 3D 重建/生成 (Single-view 3D Reconstruction/Generation)

目標(biāo): 僅從一張輸入的 2D 圖像(照片、繪畫、草圖)生成 3D 模型。

挑戰(zhàn):

  • 固有歧義性 (Ill-posed Problem): 2D 投影丟失深度信息,單圖可對(duì)應(yīng)無(wú)限 3D 形狀。
  • 依賴先驗(yàn): 模型需依賴強(qiáng)大的先驗(yàn)知識(shí)(常見(jiàn)形狀、光照、透視)來(lái)“猜測(cè)”或“腦補(bǔ)”缺失信息(尤其是背面)。

技術(shù)路徑:

  • ① 基于深度學(xué)習(xí)的直接預(yù)測(cè): 訓(xùn)練 DNN (CNN, Transformer 等) 直接從圖像預(yù)測(cè) 3D 表示(體素、點(diǎn)云、網(wǎng)格參數(shù)、隱式場(chǎng))。需大量“圖像-3D 模型”配對(duì)數(shù)據(jù)監(jiān)督訓(xùn)練。
  • 代表: Pix2Vox (預(yù)測(cè)體素), Mesh R-CNN (預(yù)測(cè)粗糙體素再優(yōu)化為網(wǎng)格)。
  • 局限: 性能受訓(xùn)練數(shù)據(jù)多樣性和質(zhì)量限制。
  • ② 結(jié)合生成模型與先驗(yàn): 利用生成模型 (GAN, Diffusion) 學(xué)習(xí) 3D 形狀先驗(yàn),再根據(jù)輸入圖像條件生成或優(yōu)化。
  • ③ 利用 2D 擴(kuò)散模型先驗(yàn) (如 Zero-1-to-3): 近期熱門且效果顯著提升。

核心思想: 利用強(qiáng)大預(yù)訓(xùn)練的、能生成新視角的 2D 圖像擴(kuò)散模型(如微調(diào)版 Stable Diffusion)作為先驗(yàn)。

流程: 給定單張輸入圖,模型“想象”并生成該物體在不同新視角下的高質(zhì)量圖像。然后用這些 AI 生成的多視圖圖像,通過(guò)成熟的多視圖重建技術(shù) (NeRF, MVS) 恢復(fù) 3D 模型。

代表: Zero-1-to-3, SyncDreamer, Magic123。

優(yōu)勢(shì): 將困難的單視圖問(wèn)題轉(zhuǎn)化為信息更充分的多視圖問(wèn)題,顯著提升質(zhì)量和一致性。

特點(diǎn): 結(jié)果依賴模型“想象力”和先驗(yàn)知識(shí);對(duì)未顯示部分需合理推斷;幾何精度通常不高,但視覺(jué)上可能合理完整。

b. 多視圖 3D 重建 (Multi-view Stereo – MVS)

目標(biāo): 從多張已知(或可估計(jì))相機(jī)位姿的、不同角度拍攝的圖像中,重建精確的三維幾何結(jié)構(gòu)。

技術(shù)路徑:

  • ① 傳統(tǒng)方法: 基于幾何原理(特征點(diǎn)匹配 SIFT、三角測(cè)量、深度圖估計(jì)融合)。
  • 代表工具: COLMAP, Meshroom (AliceVision)。
  • 局限: 處理無(wú)紋理、高反光/透明、薄結(jié)構(gòu)困難。
  • ② 基于深度學(xué)習(xí)的方法: 用 DNN 提升 MVS 各環(huán)節(jié)(預(yù)測(cè)深度圖、特征匹配)或端到端學(xué)習(xí) 3D 表示。
  • ③ NeRF/Gaussian Splatting 作為 MVS 新范式:

NeRF: 優(yōu)化 MLP 擬合所有視圖光線,隱式學(xué)習(xí)精細(xì)幾何和復(fù)雜外觀(光照、反射、半透明),生成逼真新視圖。Mesh 提取是研究熱點(diǎn)。

Gaussian Splatting: NeRF 的顯式、高效替代,用大量帶參數(shù)的 3D 高斯橢球表示場(chǎng)景,訓(xùn)練更快,可實(shí)時(shí)渲染。

代表研究: BoostMVSNeRFs, MVS-GS (應(yīng)用于大規(guī)模 MVS)。

特點(diǎn): 輸入信息豐富,幾何精度和完整性通常遠(yuǎn)高于單視圖方法;目標(biāo)是忠實(shí)還原真實(shí)世界結(jié)構(gòu)。

c. 特定類別物體重建 (Category-specific Reconstruction)

目標(biāo): 重建特定類別物體(人臉、人體、車輛、家具等)。

利用類別共有的形狀先驗(yàn),即使輸入信息有限(單圖或稀疏視圖)也能得到結(jié)構(gòu)合理、細(xì)節(jié)豐富的模型。

方法:

  • 常用參數(shù)化模型 (Parametric Models):
  • 人臉: 3D Morphable Models (3DMM),基于大量掃描數(shù)據(jù)構(gòu)建參數(shù)空間(控制身份、表情),優(yōu)化參數(shù)匹配輸入圖像特征。
  • 人體: SMPL (Skinned Multi-Person Linear Model) 及其擴(kuò)展(如 SMPL-X),通過(guò)參數(shù)控制體型 (Shape) 和姿態(tài) (Pose),從圖像/視頻估計(jì)參數(shù)重建 3D 人體。

優(yōu)勢(shì): 利用類別先驗(yàn)降低重建難度和數(shù)據(jù)要求,生成符合類別典型結(jié)構(gòu)的、語(yǔ)義合理的模型。

2?? 輸入、輸出與典型應(yīng)用場(chǎng)景

輸入:

  • 單視圖: 一張 2D 圖像(照片、繪畫、設(shè)計(jì)圖等)。
  • 多視圖: 多張不同角度圖像,通常需相機(jī)內(nèi)外參數(shù)(或能估計(jì))。
  • 視頻: 時(shí)間連續(xù)的多視圖圖像序列,通常需估計(jì)相機(jī)軌跡。

輸出:

  • ① 顯式網(wǎng)格 (Mesh): 最通用格式。MVS/NeRF 提取的 Mesh 幾何較精確、拓?fù)漭^好。單視圖生成的 Mesh 拓?fù)?精度可能較差,需后處理。
  • ② 點(diǎn)云 (Point Cloud): 某些 MVS/掃描流程的中間輸出,需表面重建得 Mesh。
  • ③ 隱式表示 (NeRF, SDF): NeRF/SDF 方法的直接輸出,需提取得 Mesh。
  • ④ 體素網(wǎng)格 (Voxel Grid): 較少作為最終輸出。
  • · 紋理信息: 通常能恢復(fù)/生成 PBR 材質(zhì)貼圖或頂點(diǎn)色。

典型應(yīng)用場(chǎng)景:

  • ① 3D 掃描與數(shù)字化: 手機(jī) App (Polycam, KIRI) 或?qū)I(yè)設(shè)備拍攝,生成模型用于文物保護(hù)、存檔、展示、逆向工程、BIM 等 (主要 MVS & NeRF/GS)。
  • ② VR/AR 內(nèi)容創(chuàng)建: 掃描現(xiàn)實(shí)物體/場(chǎng)景導(dǎo)入 VR/AR 環(huán)境,增強(qiáng)沉浸感 (主要 MVS & NeRF/GS)。
  • ③ 電子商務(wù)商品建模: 從商品圖生成 3D 模型用于在線 3D/AR 展示、虛擬試穿/戴 (單/多視圖方法)。
  • ④ 游戲與影視資產(chǎn)創(chuàng)建: 從概念圖、照片、掃描數(shù)據(jù)創(chuàng)建 3D 資產(chǎn) (各種方法)。
  • ⑤ 虛擬人/化身生成: 從照片生成個(gè)性化 3D 人臉/人體模型 (單視圖 & 特定類別重建)。
  • ⑥ 輔助設(shè)計(jì): 從草圖、參考圖、實(shí)物照片生成初步 3D 模型,加速迭代 (主要單視圖生成)。

3?? 優(yōu)勢(shì)與局限性 (產(chǎn)品視角)

優(yōu)勢(shì):

  • ① 利用現(xiàn)有視覺(jué)信息: 比 Text-to-3D 更貼近現(xiàn)實(shí)物體或參考圖,利用圖像線索。
  • ② 多視圖方法精度高: 利用多視角幾何約束,重建精度高、結(jié)果可靠。
  • ③ 應(yīng)用場(chǎng)景廣泛: 從手機(jī)掃描到專業(yè)資產(chǎn)創(chuàng)建,滿足不同需求。

局限性:

  • ① 單視圖的固有歧義性: 結(jié)果依賴先驗(yàn)和“猜測(cè)”,幾何精度/可靠性有限,易出錯(cuò)。
  • ② 對(duì)輸入圖像質(zhì)量和視角的要求: 多視圖方法需高質(zhì)量、光照均勻、紋理豐富、視角分布合理的圖像,相機(jī)位姿需準(zhǔn)確。
  • ③ 處理復(fù)雜材質(zhì)和結(jié)構(gòu)的挑戰(zhàn): 透明、高反光、無(wú)紋理、精細(xì)結(jié)構(gòu)(頭發(fā)、薄紗)仍是難點(diǎn)(KIRI Engine 等嘗試解決)。
  • ④ 輸出質(zhì)量與可用性問(wèn)題: 生成模型(尤其單視圖)也可能存在拓?fù)浠靵y、UV 不佳、材質(zhì)不理想等問(wèn)題,需后處理。
  • ⑤ 計(jì)算成本: 高質(zhì)量多視圖重建(尤其 NeRF 訓(xùn)練/渲染)需較高計(jì)算資源和時(shí)間(Instant-NGP, GS 等已加速)。

4?? 代表性技術(shù)/模型/工具與討論

① 單視圖重建/生成 (Single-View Reconstruction/Generation):

基于 2D 擴(kuò)散先驗(yàn) (2D Diffusion Priors):

Zero-1-to-3: Zero-shot One Image to 3D Object

(來(lái)源: https://zero123.cs.columbia.edu , GitHub)

SyncDreamer: Generating Multiview-consistent Images from a Single-view Image

(來(lái)源:https://liuyuan-pal.github.io/SyncDreamer/)

Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

(來(lái)源:https://openreview.net/pdf?id=0jHkUDyEO9)

早期直接預(yù)測(cè) (Early Direct Prediction):

Pix2Vox: Context-aware 3D Reconstruction from Single and Multi-view Images

(來(lái)源:https://arxiv.org/abs/1901.11153)

Mesh R-CNN: Mesh R-CNN

(來(lái)源:https://arxiv.org/abs/1906.02739)

② 多視圖重建 (Multi-View Stereo – MVS):

傳統(tǒng)方法代表 (Traditional Representatives):

COLMAP: Structure-from-Motion and Multi-View Stereo Pipeline

(來(lái)源:https://colmap.github.io/ , GitHub)

Meshroom: Open-Source 3D Reconstruction Software

(來(lái)源:https://alicevision.org/#meshroom)

NeRF/Gaussian Splatting 應(yīng)用 (NeRF/GS Applications):

NeRF for MVS: BoostMVSNeRFs: Boosting MVS-based NeRFs to Generalizable View Synthesis in Large-scale Scenes

(來(lái)源:https://arxiv.org/abs/2407.15848)

Gaussian Splatting for MVS: MVS-GS: High-Quality 3D Gaussian Splatting Mapping via Online Multi-View Stereo

(來(lái)源:https://arxiv.org/abs/2412.19130)

GaussianPro: 3D Gaussian Splatting with Progressive Propagation

(來(lái)源:https://arxiv.org/abs/2402.14650)

③ 代表性工具/應(yīng)用 (Representative Tools/Apps):

Luma AI: AI for Realistic 3D

(來(lái)源:https://lumalabs.ai/ )

Polycam: 3D Capture for Everyone

(來(lái)源:https://poly.cam/)

KIRI Engine: 3D Scanner App for iPhone, Android, and Web

(來(lái)源:https://www.kiriengine.app/)

CSM (Common Sense Machines): AI for 3D Asset Creation

(來(lái)源:https://www.csm.ai/ , https://3d.csm.ai/)

④ 特定類別重建 (Category-Specific Reconstruction):

3DMM (Faces) Review: 3D Face Reconstruction Based on A Single Image: A Review

(來(lái)源:https://www.researchgate.net/publication/379324383_3D_Face_Reconstruction_Based_on_A_Single_Image_A_Review)

SMPL (Bodies) Paper: SMPL: A Skinned Multi-Person Linear Model

(來(lái)源:https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf)

三、 NeRF (神經(jīng)輻射場(chǎng)):超越幾何,表示與渲染場(chǎng)景的新范式

雖然我們?cè)谇懊嬗懻?Image-to-3D 時(shí)已經(jīng)多次提及 NeRF,但它本身足夠重要和獨(dú)特,值得單獨(dú)作為一個(gè)技術(shù)方向來(lái)理解。NeRF(Neural Radiance Fields)的核心貢獻(xiàn)并不僅僅在于 3D 重建本身,更在于它提出了一種全新的、基于神經(jīng)網(wǎng)絡(luò)的、連續(xù)的三維場(chǎng)景表示方法,并能通過(guò)可微分的體積渲染技術(shù)生成極其逼真的新視圖圖像。它代表了從傳統(tǒng)的離散幾何表示(如網(wǎng)格、點(diǎn)云)向基于學(xué)習(xí)的隱式函數(shù)表示的重大轉(zhuǎn)變。

1?? 核心思想:用 MLP “記住”光線

① 隱式表示: NeRF 用一個(gè) MLP 神經(jīng)網(wǎng)絡(luò)隱式表示整個(gè)三維場(chǎng)景,而非離散幾何。

② MLP 輸入: 5 維向量 = 空間點(diǎn)坐標(biāo) (x,y,z) + 觀察方向 (θ,?) 或 (dx,dy,dz)。

③ MLP 輸出: 該點(diǎn)在該方向下的物理量:

  • 體積密度 (Volume Density, σ): 表示點(diǎn)的不透明度或光線吸收/散射概率。
  • 顏色 (Color, c): 點(diǎn)在該方向呈現(xiàn)的顏色 (RGB),通常與視角相關(guān) (View-dependent),以模擬高光、反射等。

④ 場(chǎng)景編碼: 整個(gè)場(chǎng)景的幾何與外觀被編碼在 MLP 的權(quán)重參數(shù)中,網(wǎng)絡(luò)“記住”了每點(diǎn)對(duì)不同方向光線的響應(yīng)。

2?? 渲染過(guò)程:可微分體積渲染

  • ① 模擬光線傳播: 從虛擬相機(jī)為每個(gè)像素發(fā)射光線穿過(guò) MLP 定義的體積場(chǎng)。
  • ② 采樣: 沿光線在近/遠(yuǎn)端邊界間采樣一系列 3D 點(diǎn)。
  • ③ 查詢 MLP: 將采樣點(diǎn)坐標(biāo)和光線方向輸入 MLP,得到密度 σ 和顏色 c。
  • ④ 體積渲染方程: 根據(jù)光路上所有采樣點(diǎn)的密度和顏色,計(jì)算光線最終形成的像素顏色,考慮光線被遮擋的累積效應(yīng)。
  • ⑤ 關(guān)鍵特性:可微分: 整個(gè)渲染流程(MLP 查詢 -> 體積渲染)完全可微分。
  • ⑥ 意義: 可計(jì)算渲染圖像與真實(shí)圖像損失對(duì) MLP 權(quán)重的梯度,從而通過(guò)反向傳播和梯度下降優(yōu)化網(wǎng)絡(luò)。

3?? 訓(xùn)練過(guò)程:從多視圖圖像學(xué)習(xí)

① 輸入: 一組已知精確相機(jī)參數(shù)(內(nèi)外參)的多視圖圖像。

② 目標(biāo): 訓(xùn)練 MLP,使其對(duì)任意給定視角渲染的圖像盡可能與真實(shí)圖像一致。

③ 方法: 隨機(jī)梯度下降 (或 Adam)。

  • 迭代過(guò)程: 隨機(jī)采樣像素光線 -> 沿光線采樣 3D 點(diǎn) -> MLP 查詢密度顏色 -> 體積渲染得預(yù)測(cè)顏色 -> 計(jì)算預(yù)測(cè)與真實(shí)顏色的損失 (L2 loss) -> 反向傳播計(jì)算梯度 -> 優(yōu)化器更新 MLP 權(quán)重。
  • 重復(fù): 大量迭代直至收斂。

④ 技巧:

  • 位置編碼 (Positional Encoding): 幫助 MLP 學(xué)習(xí)高頻細(xì)節(jié)。
  • 層級(jí)體積采樣 (Hierarchical Volume Sampling): 先粗采樣再精采樣,提高效率和質(zhì)量。

4?? NeRF 在 AI+3D 中的角色與應(yīng)用

① 高質(zhì)量三維重建 (Implicit MVS): SOTA 方法之一,擅長(zhǎng)處理復(fù)雜光照、精細(xì)幾何、反射、透明等,生成逼真結(jié)果。

② 新視圖合成 (Novel View Synthesis, NVS): 核心應(yīng)用,從任意新視角渲染逼真、連貫的圖像,用于 VR/AR、特效預(yù)覽、虛擬旅游、自由視角視頻等。

③ 作為 Text-to-3D / Image-to-3D 的中間表示: 因其連續(xù)、可微特性,適合基于優(yōu)化 (如 SDS) 的生成方法,許多生成方法輸出 NeRF 或類似表示,需后續(xù)提取 Mesh。

④ 場(chǎng)景編輯與操縱: 后續(xù)研究探索對(duì) NeRF 進(jìn)行編輯。

  • 代表: NeRF-Editing (通過(guò)代理幾何變形), NeRFshop (cage-based 變形), Instruct-NeRF2NeRF (文本指令+2D 編輯模型指導(dǎo)), ED-NeRF (LDM 潛空間編輯)。
  • 意義: 使 NeRF 不僅能“看”,還能被“修改”。

⑤ 動(dòng)態(tài)場(chǎng)景表示: 擴(kuò)展 NeRF 處理時(shí)變場(chǎng)景。

  • 代表: D-NeRF (時(shí)間作輸入+變形場(chǎng)), Nerfies (每幀變形潛碼+連續(xù)變形場(chǎng))。
  • 目標(biāo): 重建和渲染含非剛性運(yùn)動(dòng)的動(dòng)態(tài)場(chǎng)景。

5?? 優(yōu)勢(shì)與局限性 (產(chǎn)品視角)

優(yōu)勢(shì):

  • ① 無(wú)與倫比的渲染質(zhì)量: 照片級(jí)真實(shí)感,視角連貫,細(xì)節(jié)還原好。
  • ② 處理復(fù)雜光學(xué)現(xiàn)象: 對(duì)高光、反射、透明等表現(xiàn)力好。
  • ③ 連續(xù)表示: 避免離散表示的拓?fù)鋯?wèn)題和分辨率限制,理論上可表示任意細(xì)節(jié)。
  • ④ 緊湊表示: MLP 網(wǎng)絡(luò)權(quán)重通常比密集體素或高精度點(diǎn)云小。

局限性:

  • ① 訓(xùn)練速度慢: 標(biāo)準(zhǔn) NeRF 耗時(shí)(小時(shí)/天級(jí)),雖有加速技術(shù) (Instant-NGP, GS 等) 將其縮短至分鐘/秒級(jí),但復(fù)雜場(chǎng)景或極致質(zhì)量仍可能慢。
  • ② 渲染速度: 實(shí)時(shí) (>30 FPS) 高質(zhì)量渲染仍有挑戰(zhàn),需較多計(jì)算資源。GS 等顯式方法在這方面突破顯著。
  • ③ 編輯性仍受限: 相比傳統(tǒng) Mesh 編輯,對(duì)隱式 NeRF 進(jìn)行同等級(jí)別編輯仍困難,現(xiàn)有方法在通用性、精度、易用性上有差距。
  • ④ 難以直接用于物理模擬等: 不直接提供顯式表面,難用于碰撞檢測(cè)、物理模擬、3D 打印等,需先提取 Mesh(可能引入誤差)。
  • ⑤ 泛化能力與場(chǎng)景范圍: 標(biāo)準(zhǔn) NeRF 針對(duì)單場(chǎng)景優(yōu)化,難泛化。處理大/無(wú)界場(chǎng)景需特殊設(shè)計(jì) (Mip-NeRF 360)。

6?? 代表性技術(shù)/模型/工具與討論

① 核心論文 (Core Paper):

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (Mildenhall et al., ECCV 2020)

(來(lái)源:http://www.matthewtancik.com/nerf)

② 重要改進(jìn)工作 (Key Improvements):

加速訓(xùn)練/渲染 (Acceleration):

Instant-NGP: Instant Neural Graphics Primitives with a Multiresolution Hash Encoding (Müller et al., SIGGRAPH 2022)

(來(lái)源:https://arxiv.org/abs/2201.05989 , https://nvlabs.github.io/instant-ngp/ )

Gaussian Splatting: 3D Gaussian Splatting for Real-Time Radiance Field Rendering (Kerbl et al., SIGGRAPH 2023)

(來(lái)源:https://www.researchgate.net/publication/372989904_3D_Gaussian_Splatting_for_Real-Time_Radiance_Field_Rendering , GitHub)

編輯性 (Editability):

NeRF-Editing: Geometry Editing of Neural Radiance Fields

(來(lái)源:https://github.com/IGLICT/NeRF-Editing , arXiv:2205.04978)

Instruct-NeRF2NeRF: Editing 3D Scenes with Instructions

(來(lái)源: https://instruct-nerf2nerf.github.io/ ,arXiv:2303.12789)

動(dòng)態(tài)場(chǎng)景 (Dynamic Scenes):

D-NeRF: Neural Radiance Fields for Dynamic Scenes

(來(lái)源: https://www.albertpumarola.com/research/D-NeRF/index.html ,arXiv:2011.13961, GitHub)

Nerfies: Deformable Neural Radiance Fields

(來(lái)源: https://nerfies.github.io/ ,arXiv:2011.12948, GitHub)

③ 應(yīng)用平臺(tái)/工具 (Application Platforms/Tools):

Nvidia Instant-NGP: Open-Source Implementation

(來(lái)源:https://github.com/NVlabs/instant-ngp )

四、 其他值得關(guān)注的技術(shù)方向與趨勢(shì)

除了上述三大主流方向(Text-to-3D, Image-to-3D, NeRF),AI 生成 3D 領(lǐng)域還有一些其他值得關(guān)注的技術(shù)路徑和發(fā)展趨勢(shì),它們可能代表了未來(lái)的重要方向或補(bǔ)充了現(xiàn)有技術(shù)的不足。

1?? Sketch-to-3D (草圖到三維)

目標(biāo): 用戶通過(guò)繪制 2D 草圖(輪廓、結(jié)構(gòu)線、顏色提示)引導(dǎo) AI 生成 3D 模型。

優(yōu)勢(shì):

  • 輸入直觀: 對(duì)擅長(zhǎng)繪畫或習(xí)慣草圖表達(dá)的用戶更直觀,更能表達(dá)空間形態(tài)。
  • 交互性強(qiáng): 可通過(guò)修改草圖迭代調(diào)整 3D 結(jié)果,實(shí)現(xiàn)更精細(xì)控制。
  • 挑戰(zhàn):
  • 理解意圖: AI 需理解草圖幾何意圖和風(fēng)格,并合理“膨脹”到 3D。
  • 處理歧義: 如何處理手繪線條歧義(邊緣/輪廓/細(xì)節(jié)?)、從稀疏線條推斷完整形狀是難點(diǎn)。

應(yīng)用: 概念設(shè)計(jì)、教育、創(chuàng)意娛樂(lè)(快速動(dòng)畫角色)。

  • 代表: Sketch2Model (從單草圖生成視點(diǎn)感知模型), Google Monster Mash (繪制 2D 部件“充氣”成可動(dòng) 3D 模型)。

2?? 3D-aware Generative Models (感知三維的生成模型)

目標(biāo): 讓生成模型 (GANs, Diffusion) 在生成 2D 圖像時(shí)就具備“三維意識(shí)”,生成的 2D 圖隱含合理且一致的 3D 結(jié)構(gòu)。

方法:

  • 架構(gòu)設(shè)計(jì): 在生成器中間層引入 3D 表示 (NeRF, 體素, 帶紋理 Mesh),再通過(guò)可微渲染生成 2D 圖。
  • 損失函數(shù): 設(shè)計(jì)損失鼓勵(lì)生成結(jié)果在不同視角保持 3D 一致性。

意義:

  • 生成的 2D 圖像因內(nèi)在 3D 一致性,更易用于后續(xù) 3D 重建/編輯。
  • 可從生成圖像直接提取對(duì)應(yīng)的 3D 模型和紋理,保證視圖一致性。

代表性工作:

  • EG3D (Nvidia): 混合三平面表示+StyleGAN2,生成高分辨率、多視圖一致圖像和高質(zhì)量 3D 幾何。
  • GET3D (Nvidia): 直接生成顯式、帶紋理的 3D 網(wǎng)格,輸出可直接用于渲染引擎。
  • StyleSDF: 結(jié)合 SDF (3D 表示) 和 StyleGAN2 (2D 生成器),旨在同時(shí)實(shí)現(xiàn)高分辨率圖像和精細(xì) 3D 形狀。

3?? 多模態(tài)融合與交互式生成

趨勢(shì): 結(jié)合多種輸入模態(tài)(文本、圖像、草圖、語(yǔ)音、手勢(shì)等),提供更豐富、自然、精確的控制。生成過(guò)程更交互式,用戶與 AI 持續(xù)對(duì)話、指導(dǎo)、共創(chuàng),實(shí)時(shí)調(diào)整。

驅(qū)動(dòng)力:

  • 解決單一模態(tài)局限: 文本難描幾何,草圖難表材質(zhì)。
  • 提升可控性: 彌補(bǔ)當(dāng)前生成模型可控性差的問(wèn)題。
  • 市場(chǎng)趨勢(shì): AI 領(lǐng)域向多模態(tài)發(fā)展;內(nèi)容創(chuàng)作中 AI 從自動(dòng)化工具變協(xié)作伙伴,交互性更重要。

4?? 代表性技術(shù)/模型/工具與討論

① Sketch-to-3D:

Sketch2Model: View-Aware 3D Modeling from Single Free-Hand Sketches (arXiv:2105.06663)

(來(lái)源:https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Sketch2Model_View-Aware_3D_Modeling_From_Single_Free-Hand_Sketches_CVPR_2021_paper.pdf)

Google Monster Mash: Sketch-Based Modeling and Animation Tool

(來(lái)源:https://monstermash.zone/# Demo, GitHub, https://research.google/blog/monster-mash-a-sketch-based-tool-for-casual-3d-modeling-and-animation/)

② 3D-aware Generative Models:

EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

(來(lái)源: https://nvlabs.github.io/eg3d/ arXiv:2112.07945, GitHub)

GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images

(來(lái)源:https://research.nvidia.com/labs/toronto-ai/GET3D/ , https://proceedings.neurips.cc/paper_files/paper/2022/file/cebbd24f1e50bcb63d015611fe0fe767-Paper-Conference.pdf, GitHub)

StyleSDF: High-Resolution 3D-Consistent Image and Geometry Generation

(來(lái)源: https://stylesdf.github.io/ ,arXiv:2112.11427, GitHub)

③ 多模態(tài)/交互式生成趨勢(shì) (Multimodal/Interactive Trends):

Multimodal AI Market Analysis: Multimodal AI Market Size & Share Report, 2030

(來(lái)源:https://www.grandviewresearch.com/industry-analysis/multimodal-artificial-intelligence-ai-market-report)

Multimodal AI: Everything You Need to Know

(來(lái)源:https://www.superannotate.com/blog/multimodal-ai)

結(jié)語(yǔ):理解光譜,擁抱多元

通過(guò)本篇筆記的梳理,我們對(duì)當(dāng)前 AI 生成 3D 的主流技術(shù)流派——Text-to-3D 的“語(yǔ)言召喚”、Image-to-3D 的“視覺(jué)還原”、NeRF 的“光場(chǎng)記憶”以及其他如 Sketch-to-3D 的交互探索——有了更清晰的認(rèn)識(shí)。我們看到,每種技術(shù)路徑都有其獨(dú)特的優(yōu)勢(shì)、局限和最適宜的應(yīng)用場(chǎng)景,它們共同構(gòu)成了 AI+3D 技術(shù)的“光譜”。

Text-to-3D 以其極低的創(chuàng)作門檻和近乎無(wú)限的創(chuàng)意可能性,在快速概念設(shè)計(jì)和大規(guī)模個(gè)性化內(nèi)容生成方面展現(xiàn)出巨大潛力。然而,現(xiàn)階段其輸出質(zhì)量的穩(wěn)定性和精度,以及對(duì)生成結(jié)果的精細(xì)控制能力,仍然是亟待突破的瓶頸。

Image-to-3D 則更側(cè)重于從現(xiàn)有的視覺(jué)信息中恢復(fù)三維結(jié)構(gòu)。其中,基于多視圖輸入的方法(特別是結(jié)合 NeRF 或 Gaussian Splatting)在重建精度和視覺(jué)真實(shí)感上表現(xiàn)突出,是推動(dòng) 3D 掃描和現(xiàn)實(shí)世界數(shù)字化的重要力量;而單視圖方法則在利用強(qiáng)大的 AI 先驗(yàn)知識(shí)進(jìn)行“腦補(bǔ)”式生成方面不斷取得進(jìn)步,尤其是在 Zero-1-to-3 等利用 2D 擴(kuò)散先驗(yàn)的技術(shù)出現(xiàn)后。

NeRF 作為一種革命性的場(chǎng)景表示與渲染技術(shù),不僅極大地推動(dòng)了高保真三維重建的發(fā)展,也因其可微性而成為了許多 AI 生成方法(如 SDS)的底層表示支撐。其在新視圖合成和處理復(fù)雜光學(xué)現(xiàn)象方面的優(yōu)勢(shì)無(wú)與倫比,但訓(xùn)練與渲染效率、以及直接編輯性仍然是其廣泛應(yīng)用面臨的挑戰(zhàn),盡管 Instant-NGP、Gaussian Splatting 和 NeRF 編輯等研究正在積極應(yīng)對(duì)。

作為 AI+3D 領(lǐng)域的產(chǎn)品經(jīng)理或從業(yè)者,深刻理解這個(gè)技術(shù)“光譜”至關(guān)重要。這意味著我們需要:

  • 避免“一刀切”思維: 根據(jù)產(chǎn)品目標(biāo)、用戶需求、場(chǎng)景及對(duì)質(zhì)量/速度/成本/可控性要求,審慎選擇技術(shù)路徑或組合。
  • 科學(xué)管理預(yù)期: 清晰認(rèn)識(shí)技術(shù)成熟度、能力邊界和局限,傳遞準(zhǔn)確預(yù)期,避免過(guò)度承諾。
  • 關(guān)注融合與演進(jìn): 不同流派在相互借鑒融合,持續(xù)關(guān)注前沿研究和技術(shù)趨勢(shì)。
  • 聚焦最終“可用性”: 嚴(yán)格評(píng)估生成結(jié)果質(zhì)量(幾何、拓?fù)?、UV、材質(zhì))和性能,考慮后處理工作量,判斷產(chǎn)品價(jià)值。

在接下來(lái)的筆記中,我們將開(kāi)始更深入地鉆研這些技術(shù)背后的核心機(jī)制和挑戰(zhàn),例如 NeRF 的具體工作原理、面臨的挑戰(zhàn)及加速方法(S2E04 預(yù)告),Diffusion Model 如何作為強(qiáng)大的先驗(yàn)驅(qū)動(dòng) 3D 內(nèi)容生成(S2E05 預(yù)告),以及如何建立一套科學(xué)的評(píng)估體系來(lái)衡量 AI 生成 3D 模型的“可用性”(S2E08 預(yù)告)。理解了這些基礎(chǔ)技術(shù)流派及其特點(diǎn),我們將能更好地把握 AI+3D 領(lǐng)域未來(lái)的發(fā)展脈絡(luò)和涌現(xiàn)的產(chǎn)品機(jī)遇。

附錄:主流 AI 生成 3D 技術(shù)流派對(duì)比概覽

本文由人人都是產(chǎn)品經(jīng)理作者【Mu先生Ai世界】,微信公眾號(hào):【Mu先生Ai世界】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖由作者提供

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
43473人已学习21篇文章
优惠券的知识点非常丰富,而且随着运营方式的增多, 不同运营目标所使用的优惠券也是不一样的。
专题
43285人已学习18篇文章
继蒸汽机、电力、互联网之后,区块链很可能是下一代颠覆性的核心技术。
专题
12065人已学习12篇文章
面对多岗位意见不统一时,如何提升自己的话语权,让自己的建议能够真正被他人纳入范围内?本专题的文章分享了关于提升话语权的一些建议。
专题
13705人已学习13篇文章
本专题的文章分享了如何打造用户“上瘾”的产品。
专题
11868人已学习12篇文章
数据管理系统在后期能够为企业提供基础数据服务,保证企业往更好的方向运营。本专题的文章分享了如何做好数据管理。
专题
15363人已学习12篇文章
本专题的文章分享了用户精细化运营---用户分群的建立指南。