AI繪畫(huà)技術(shù)原理解析

1 評(píng)論 13266 瀏覽 53 收藏 27 分鐘

隨著AIGC的發(fā)展,AI繪畫(huà)逐漸進(jìn)入我們的生活和工作。本文將探討AI繪畫(huà)技術(shù)的各個(gè)方面。從圖像生成技術(shù)邁出的里程碑事件,到對(duì)AI繪畫(huà)技術(shù)的深度科普,再到未來(lái)的發(fā)展趨勢(shì)分析,相信本文將能夠?yàn)榇蠹医沂続I繪畫(huà)背后的神秘面紗,一起來(lái)深入了解其技術(shù)原理吧。

我會(huì)通過(guò)兩篇文章來(lái)對(duì)AI繪畫(huà)產(chǎn)品進(jìn)行分析,第一篇主要科普?qǐng)D像生成技術(shù)原理;第二篇是分析AI繪畫(huà)產(chǎn)品商業(yè)化落地,算是我近期對(duì)AI繪畫(huà)產(chǎn)品了解的一個(gè)總結(jié)輸出,以下是第一篇內(nèi)容。

2022年9月一幅名為《太空歌劇院》的畫(huà)作在數(shù)字藝術(shù)類(lèi)別比賽中一舉奪冠,這個(gè)震驚四座的畫(huà)作由游戲設(shè)計(jì)師Jason Allen使用Midjourney完成,AI繪畫(huà)進(jìn)入人們的視野。

人們第一次意識(shí)到AI做出來(lái)的畫(huà)可以如此精美,意識(shí)到AI繪畫(huà)可能如同當(dāng)年相機(jī)、數(shù)字繪畫(huà)的出現(xiàn)一樣,會(huì)給繪畫(huà)設(shè)計(jì)行業(yè)帶來(lái)一場(chǎng)深刻的變革。

這篇文章從產(chǎn)品經(jīng)理視角,了解AI繪畫(huà)產(chǎn)品的背后有哪些算法模型、他們的技術(shù)原理是什么?不同技術(shù)的邊界在哪里,使用場(chǎng)景在哪里?產(chǎn)品經(jīng)理要懂得將算法合理的組合使用,以滿(mǎn)足日常工作的需求,實(shí)現(xiàn)產(chǎn)品目標(biāo)。

  1. AI繪畫(huà)發(fā)展的主要節(jié)點(diǎn)
  2. AI繪畫(huà)的底層原理
  3. 主流的圖像生成模型解析
  4. AI繪畫(huà)的可控性有哪些
  5. AI繪畫(huà)的技術(shù)研究趨勢(shì)

一、AI繪畫(huà)發(fā)展的主要節(jié)點(diǎn)

1. 2012年AI畫(huà)出了一只模糊的貓

吳恩達(dá)和杰夫安迪使用了1.6萬(wàn)個(gè)CPU和You Tube上1000萬(wàn)張貓的圖片,用時(shí)3天時(shí)間訓(xùn)練了當(dāng)時(shí)最大的深度學(xué)習(xí)模型,最終生成了一張貓臉。

雖然這張貓的圖片看起來(lái)非常模糊,而且耗時(shí)又非常久,但對(duì)當(dāng)時(shí)的計(jì)算機(jī)視覺(jué)來(lái)講具有重要突破意義的嘗試,開(kāi)啟了AI繪畫(huà)研究的全新方向。

為什么當(dāng)時(shí)基于深度學(xué)習(xí)模型的AI繪畫(huà)那么麻煩?主要是整個(gè)模型需要利用大量標(biāo)注好的訓(xùn)練數(shù)據(jù),根據(jù)輸入和所對(duì)應(yīng)的預(yù)期輸出,不斷地調(diào)整模型內(nèi)部的參數(shù)進(jìn)行匹配。例如生成一張512*512 *3(RGB)的畫(huà),要將這些像素有規(guī)律的組合,會(huì)涉及到龐大參數(shù)迭代調(diào)整的過(guò)程。

2. 2015年文生圖重要的拐點(diǎn)

2015年出了一項(xiàng)人工智能的重大進(jìn)展——智能圖像識(shí)別。機(jī)器學(xué)習(xí)可以對(duì)圖像中的物體貼上標(biāo)簽,然后將這些標(biāo)簽轉(zhuǎn)化成自然語(yǔ)言描述。

一些研究人員產(chǎn)生了好奇,如果把這個(gè)過(guò)程反向,通過(guò)文字來(lái)生成畫(huà)面,是否也能實(shí)現(xiàn)呢?

于是他們向計(jì)算機(jī)模型輸入了一些文字,看看能產(chǎn)生什么原因,結(jié)果模型真的生成了一些結(jié)果圖片。如下圖中所示,這時(shí)產(chǎn)生了32*32像素的小圖片,基本很難辨別出啥,但已經(jīng)預(yù)示著無(wú)限的可能性。

3. 2021年OpenAI宣布Dalle

2021年年初,OpenAI發(fā)布了引發(fā)巨大關(guān)注的DALL-E系統(tǒng),但DALL-E的繪畫(huà)水平還是很一般,之所以引發(fā)關(guān)注,是因?yàn)樗麑?shí)現(xiàn)了輸入文字就可以繪畫(huà)創(chuàng)作的可能,比之前生成的圖片質(zhì)量高很多。

4. 2022年開(kāi)啟AI繪畫(huà)的元年

2月 Disco diffusion V5發(fā)布

在2022年的2月,由somnai等幾個(gè)開(kāi)源社區(qū)的工程師做了一款基于擴(kuò)散模型的AI繪圖生成器——Disco diffusion。從它開(kāi)始,AI繪畫(huà)進(jìn)入了發(fā)展的快車(chē)道,潘多拉魔盒已經(jīng)打開(kāi)。

越來(lái)越多的人開(kāi)始使用Disco diffusion創(chuàng)作作品,但是它有一個(gè)致命的缺點(diǎn)就是它生成的畫(huà)面都十分的抽象,這些畫(huà)面用來(lái)生成抽象畫(huà)還不錯(cuò),但是幾乎無(wú)法生成具象的人。

由于生成速度較慢,操作復(fù)雜、生成的風(fēng)格相對(duì)比較抽象, 目前使用的人沒(méi)有Stable Diffusion 和Midjourney那么多。

3月 Midjouney

Midjouney選擇搭載在discord平臺(tái),借助discord聊天式的人機(jī)交互方式,不需要之前繁瑣的操作,也沒(méi)有Disco diffusion十分復(fù)雜的參數(shù)調(diào)節(jié),你只需要向聊天窗口輸入文字就可以生成圖像。更關(guān)鍵的是,Midjouney生成的圖片效果非常驚艷,普通人幾乎已經(jīng)很難分辨出它產(chǎn)生的作品,竟然是AI繪畫(huà)生成的。

4月 DALL·E 2

4月10日,之前提到過(guò)的OpenAI推出的第二代圖像生成人工智能模型DALL·E 2。與第一代DALL-E相比,DALL-E 2在圖像質(zhì)量、生成速度和多樣性等方面都有顯著提升。影響力不及Chat GPT,個(gè)人消費(fèi)者對(duì)他沒(méi)有那么喜歡,因?yàn)樗傻膱D片的風(fēng)格更傾向于更一本正經(jīng),比較傳統(tǒng)一些。

7月 Stable diffusion

7月29日 一款叫Stable diffusion的AI生成器開(kāi)始內(nèi)測(cè),人們發(fā)現(xiàn)用它生成的AI繪畫(huà)作品,其質(zhì)量可以媲美DALL·E 2,而且還沒(méi)那么多限制。

Stable diffusion內(nèi)測(cè)不到1個(gè)月,正式宣布開(kāi)源,開(kāi)源讓AI繪畫(huà)技術(shù)的普及,也是讓領(lǐng)域能有更多人開(kāi)發(fā)貢獻(xiàn),加快技術(shù)的應(yīng)用發(fā)展。

二、AI繪畫(huà)的底層原理

AI繪畫(huà)的根源來(lái)源于人工神經(jīng)網(wǎng)絡(luò),科學(xué)家受人類(lèi)神經(jīng)元啟發(fā),設(shè)計(jì)出的人工神經(jīng)網(wǎng)絡(luò)長(zhǎng)下面這樣。

神經(jīng)網(wǎng)絡(luò)都是用數(shù)學(xué)公式表示的,沒(méi)有實(shí)體結(jié)構(gòu),圖里面的這些圈和連線(xiàn)是對(duì)神經(jīng)網(wǎng)絡(luò)的一種可視化呈現(xiàn),方便我們理解。

這圖中圓圈里都有一個(gè)計(jì)數(shù)器,當(dāng)這個(gè)計(jì)數(shù)器接收到左邊連線(xiàn)傳來(lái)的數(shù)時(shí),會(huì)進(jìn)行一次簡(jiǎn)單的計(jì)算,然后把計(jì)算結(jié)果(也是一個(gè)數(shù))輸出,通過(guò)連線(xiàn)傳給右邊的圓圈,繼續(xù)重復(fù)類(lèi)似的過(guò)程,直到數(shù)字從最右側(cè)的圓圈輸出。

人類(lèi)的不同神經(jīng)元之間連接的強(qiáng)度是不一樣的,有些粗一點(diǎn),有些細(xì)一點(diǎn)。正是這些連接強(qiáng)度,讓我們產(chǎn)生了記憶和知識(shí)。

對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),也有相似的規(guī)律:圓圈和圓圈之間的連線(xiàn)的“權(quán)重”不同。

神經(jīng)網(wǎng)絡(luò)左側(cè)輸入一些列數(shù)字,神經(jīng)網(wǎng)絡(luò)會(huì)按照?qǐng)A圈里的計(jì)算規(guī)則及連線(xiàn)的權(quán)重,把數(shù)字從左到右計(jì)算和傳遞,最終,從最右側(cè)的圓圈輸出一系列數(shù)字。

那如何讓神經(jīng)網(wǎng)絡(luò)畫(huà)一幅畫(huà)?

原理其實(shí)比較好理解,首先需要將圖片轉(zhuǎn)化成計(jì)算機(jī)能理解的數(shù)字語(yǔ)言,對(duì)于計(jì)算機(jī)而言圖片就是一串?dāng)?shù)字,每個(gè)像素顏色由3個(gè)RGB數(shù)值表示。

然后將一串?dāng)?shù)字輸入到?jīng)]有訓(xùn)練過(guò)得神經(jīng)網(wǎng)絡(luò)模型,也會(huì)生成一串?dāng)?shù)字,只不過(guò)解碼后可能就是一張亂碼圖片,所以需要大量數(shù)據(jù)和不斷調(diào)整算法參數(shù)的權(quán)重,最終訓(xùn)練一個(gè)能畫(huà)貓的模型。例如當(dāng)輸入圖片貓或文字貓,都能轉(zhuǎn)化成一串?dāng)?shù)字到模型中,輸出一個(gè)正確的貓圖片。

圖像生成模型是在不斷演化的,從最早的VAE到風(fēng)靡一時(shí)的GAN,到當(dāng)今的王者Diffusion模型,那我們接下來(lái)介紹下不同模型的技術(shù)原理是什么。

三、主流的圖像生成模型解析

1. VAE — 打開(kāi)生成模型的大門(mén)

VAE是AE的升級(jí)版本,AE由一個(gè)編碼器網(wǎng)絡(luò)和一個(gè)解碼器網(wǎng)絡(luò)組成。編碼器將輸入數(shù)據(jù)映射到潛在空間中的隱變量表示,解碼器則將隱變量映射回重構(gòu)的數(shù)據(jù)空間。

如上圖,假設(shè)有一張圖像,通過(guò)編碼器提取了多種特征,比如特征1字體顏色、特征2字體粗細(xì)、特征3字體形狀。傳統(tǒng)的自編碼器對(duì)輸入圖像的潛在特征表示為具體的數(shù)值,比如顏色=0.5,粗細(xì)=0.8,形狀=0.6。這些數(shù)值通過(guò)解碼器恢復(fù)出于原圖像相似的圖像。

那這樣的模型解決什么問(wèn)題呢?

主要應(yīng)用在降維/可視化和去噪的場(chǎng)景中。

我們生活存在大量的文本、圖像、語(yǔ)音數(shù)據(jù),這些數(shù)據(jù)存在大量的冗余信息,理論上是可以用極少的向量來(lái)表示,所以可以用來(lái)圖像壓縮處理,這跟傳統(tǒng)的圖像壓縮技術(shù)完全不一樣。后面講到的stable diffusion 模型就用到AE的潛空間來(lái)進(jìn)行低維度的降噪和生成真實(shí)圖像。

在應(yīng)用場(chǎng)景中也能發(fā)現(xiàn),他僅適合用于重建圖像,不適用于生成新的圖像,所以有了VAE的誕生。

VAE與AE的區(qū)別在,VAE在編碼器輸出的分布曲線(xiàn)值,而非離散值,這樣的話(huà)輸入的圖像就跟壓縮向量就不是直接對(duì)應(yīng)關(guān)系,這樣就可以生成新的圖像。

如上圖,我們將每個(gè)特征通過(guò)概率分布進(jìn)行表示。比如顏色的取值范圍為[-1,1],粗細(xì)的取值范圍為[-3,3],形狀的取值范圍為[-5,5]。我們可以在范圍內(nèi)對(duì)每個(gè)特征進(jìn)行取值,然后通過(guò)解碼器生成新圖像。例如給一張人臉可以生成不同表情的人臉。

VAE不僅除了應(yīng)用在壓縮、去噪和生成新的圖像也可以應(yīng)用在圖像分割上,例如自動(dòng)駕駛的道路檢測(cè)。

但VAE生成圖像存在局限性,生成圖像的質(zhì)量不高,存在模糊和不真實(shí)。

2. GAN — 創(chuàng)建“以假亂真”的新數(shù)據(jù)

GAN包含了兩個(gè)模型,生成模型(Generator)和判別模型(Discirminator),給生成模型隨機(jī)輸入噪聲,生成圖片;給判別模型輸入真實(shí)數(shù)據(jù)和生成的圖片,判別生成的圖片是真的還是假的。

剛開(kāi)始生成器生成的圖片給判別器,判別器一看就是假的,打回去讓生成器重新生成,同樣判別模型也要提升自己的判別水平,經(jīng)過(guò)無(wú)數(shù)次的對(duì)抗,直到生成模型生成的圖片騙過(guò)判別模型。

GAN的應(yīng)用場(chǎng)景有哪些?

GAN的應(yīng)用場(chǎng)景非常廣泛,在圖像生成,生成不存在的人物、物體、動(dòng)物;圖像修復(fù)、圖像增強(qiáng)、風(fēng)格化和藝術(shù)的圖像創(chuàng)造等。不一一列舉,想要詳細(xì)了解的可以看鏈接:https://zhuanlan.zhihu.com/p/75789936

曾經(jīng)大紅大紫的GAN為什么會(huì)被Diffusion取代?

1.GAN的訓(xùn)練過(guò)程過(guò)程相對(duì)不穩(wěn)定,生成器和判別器之間的平衡很容易打破,容易導(dǎo)致模型崩潰或崩塌問(wèn)題;

2.判別器不需要考慮生成樣品的種類(lèi),而只關(guān)注于確定每個(gè)樣品是否真實(shí),這使得生成器只需要生成少數(shù)高質(zhì)量的圖像就足以愚弄判別者;

3.生成的圖像分辨率較低;

因此,以GAN模型難以創(chuàng)作出有創(chuàng)意的新圖像,也不能通過(guò)文字提示生成新圖像。

3. Diffusion — 圖像生成模型的皇冠

目前主流國(guó)內(nèi)外靠譜的圖片生成技術(shù)主要基本都是基于Diffusion Model (擴(kuò)散模型) 來(lái)進(jìn)行的實(shí)現(xiàn),包括不限于 Stable Diffusion MidJourney 、 OpenAl DALL.E 、DiscoDiffusion、Google lmagen 等主流產(chǎn)品,但是實(shí)際技術(shù)在處理方面又各有區(qū)別,也導(dǎo)致會(huì)有不司的表現(xiàn)形態(tài),核心一方面是底層模型訓(xùn)練的圖語(yǔ)料不同,另外一個(gè)方面是一些算法方面的微調(diào)區(qū)別。

Diffusion模型生成圖片的過(guò)程可以理解像是石雕的過(guò)程,從一塊石頭經(jīng)過(guò)不斷的雕刻變成一件藝術(shù)作品,從一個(gè)噪點(diǎn)圖像不斷去噪生成一張真實(shí)圖像。

那擴(kuò)散模型是怎么訓(xùn)練的?

Diffusion模型的訓(xùn)練可以分為兩個(gè)部分:

  1. 前向擴(kuò)散過(guò)程(Forward Diffusion Process) —— 向圖片中不斷添加噪聲,直到圖片變成完全的噪點(diǎn)圖片的過(guò)程。
  2. 反向擴(kuò)散過(guò)程(Reverse Diffusion Process) —— 是將噪點(diǎn)圖片不斷的還原為原始圖片的過(guò)程。

官方給出的有3個(gè)訓(xùn)練步驟,如下圖:

  1. 對(duì)于每張圖像先隨機(jī)生成一個(gè)長(zhǎng)T,T表示從一張?jiān)紙D到高斯噪聲圖要多少次。
  2. 給原始圖片添加T次高斯噪聲,不同T時(shí)圖像添加的噪聲深度會(huì)有所不同。
  3. 將T和對(duì)應(yīng)的圖片放入到UNet模型中訓(xùn)練,這樣還原圖片就能預(yù)測(cè)T步驟中的噪聲。

反向擴(kuò)散訓(xùn)練過(guò)程步驟如下圖:

  1. 采樣一張高斯噪聲圖,假如T設(shè)置為1000
  2. 將高斯噪聲和T輸入到UNet模型中預(yù)測(cè)噪聲,下一步的高斯噪聲為上一步高斯噪聲減去預(yù)測(cè)噪聲,以此步驟直到T為0
  3. T為0時(shí)還原最終的圖像

Diffusion模型的大數(shù)據(jù)訓(xùn)練,數(shù)據(jù)訓(xùn)練來(lái)自于LAION-5B包含58.3文本-圖像對(duì),并且是篩選了評(píng)分高的圖片進(jìn)行訓(xùn)練。通過(guò)大數(shù)據(jù)模型訓(xùn)練,讓模型具有生成圖像的能力。有了生成圖像能力還不夠,需要能聽(tīng)得懂需求的能力,根據(jù)文字輸入就能生成圖像。

4. CLIP—打造圖文匹配

CLIP是OpenAI在2021年開(kāi)源的模型,一種基于對(duì)比文本-圖像對(duì)的預(yù)訓(xùn)練方法或者模型,確保計(jì)算機(jī)在文字描述和圖像之間形成互通。

在CLIP推出一年后,幾個(gè)開(kāi)源社區(qū)的工程基于CLIP+Diffusion就開(kāi)發(fā)了Disco Diffusion,后面的midjourney和stable diffusion模型都有使用CLIP模型。

據(jù)統(tǒng)計(jì),CLIP模型搜集了網(wǎng)絡(luò)上超過(guò)4億的“文本-圖像”作為訓(xùn)練數(shù)據(jù),為文本生成圖像/視頻應(yīng)用的落地奠定了基礎(chǔ),實(shí)現(xiàn)了跨模態(tài)的創(chuàng)新。

以上圖像生成相關(guān)的模型都以解析完,那我們拿Stable Diffusion 來(lái)進(jìn)行梳理下整個(gè)圖像生成的流程是怎么樣和整體架構(gòu),其他圖像生成模型大致也差不多。

5. Stable Diffusion 模型結(jié)構(gòu)

Stable Diffusion主要有三部分組成,像素空間、潛在空間 、條件機(jī)制。

像素空間:使用的AE模型將圖像壓縮到潛在空間訓(xùn)練和將生成的低維向量轉(zhuǎn)化成真實(shí)圖像,這樣提升生成速度和降低算力要求。

潛在空間:Diffusion模型在潛在空間進(jìn)行加噪和去噪的訓(xùn)練,去噪的過(guò)程需要導(dǎo)入條件,生成符合預(yù)期圖片。

條件機(jī)制:條件可以是文字、圖像、音頻、視頻,將條件轉(zhuǎn)化成向量值,作為Diffusion模型生成過(guò)程中的引導(dǎo)因子。

Stable Diffusion圖像生成流如下:

通過(guò)以上擴(kuò)散模型原理大致也明白AI生成的圖像帶有較大的隨機(jī)性,生成的每張圖像都不一樣,這種隨機(jī)性帶來(lái)的好處是無(wú)窮無(wú)盡的想象力,但同時(shí)也面臨著不可控,有點(diǎn)靠運(yùn)氣,生成理想的圖像只能多嘗試。AI繪畫(huà)想要擴(kuò)大商業(yè)化落地,必須要解決精準(zhǔn)可控性問(wèn)題。

四、AI繪畫(huà)的可控性有哪些

除了輸入文字、墊圖的方式還最流行的微調(diào)模型叫Lora和最近幾個(gè)月更新的Controlnet來(lái)控制圖片的生成,這幾個(gè)小模型可以理解為Stable Diffusion的一種插件。

1. Lora模型

在不修改SD模型的前提下,教會(huì)利用少量數(shù)據(jù)訓(xùn)練出只可意會(huì)不可言傳的風(fēng)格,實(shí)現(xiàn)定制化需求,對(duì)算力的要求不高,模型適中在幾十MB大小。

Lora 必須搭配在SD模型上一起使用。

Lora可以自己訓(xùn)練也可以在著名的模型分享網(wǎng)站https://civitai.com/上下載,有大量Lora模型,其中SD模型僅有2000個(gè),剩下4萬(wàn)個(gè)基本都是LoRA等小模型。

例如想要生成下面風(fēng)格的汽車(chē),我們找到這款不同角度的一些圖片作為L(zhǎng)ora訓(xùn)練。生成汽車(chē)的風(fēng)格跟想要風(fēng)格汽車(chē)很相似。

微調(diào)模型不止有Lora 模型,還有Textual Inversion、Hypernetwork、Dreambooth。只是Lora 模型比較穩(wěn)定,使用門(mén)檻相對(duì)低,所以目前比較流行。

2. Controlnet模型

Controlnet就是控制網(wǎng)的意思,其實(shí)就是在大模型外部通過(guò)疊加一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)達(dá)到精準(zhǔn)控制輸出的內(nèi)容。很好的解決了單純的關(guān)鍵詞的控制方式無(wú)法滿(mǎn)足對(duì)細(xì)節(jié)控制的需要,比微調(diào)模型更進(jìn)一步對(duì)圖像生成的控制。

想要對(duì)Controlnet有更詳細(xì)的了解可查看如下鏈接:

https://zhuanlan.zhihu.com/p/625707834

https://mp.weixin.qq.com/s/-r7qAkZbG4K2Clo-EvvRjA

https://mp.weixin.qq.com/s/ylVbqeeZc7XUHmrIrNmw9Q

五、AI繪畫(huà)的技術(shù)研究趨勢(shì)

1. 更強(qiáng)的語(yǔ)義理解

使用AI繪畫(huà)生成高質(zhì)量、精美的生成圖像需要在在prompt做很多努力,可見(jiàn)prompt對(duì)最終效果的影響。因此,如何降低用戶(hù)使用prompt的門(mén)檻,讓AI更能理解語(yǔ)義,值得研究的方向。

2. 更精準(zhǔn)可控生成

目前可控生成是一個(gè)大火的領(lǐng)域,也有像ControlNet這樣的精品,可以通過(guò)輸入簡(jiǎn)單的線(xiàn)稿圖、人體姿態(tài)圖、分割圖、深度圖等生成滿(mǎn)足條件的內(nèi)容,但距離真正的精準(zhǔn)控制仍有差距??上驳氖?,可控生成發(fā)展得越來(lái)越快,精準(zhǔn)控制并不是遙不可及,圖像生成AI也會(huì)隨之拓展其應(yīng)用邊界,如一致性的視頻生成、精確的構(gòu)圖設(shè)計(jì)都會(huì)改變?cè)S多領(lǐng)域的工作方式。

最近,來(lái)自馬克斯?普朗克計(jì)算機(jī)科學(xué)研究所、MIT CSAIL 和谷歌的研究者們研究了一種控制 GAN 的新方法 DragGAN,能夠讓用戶(hù)以交互的方式「拖動(dòng)」圖像的任何點(diǎn)精確到達(dá)目標(biāo)點(diǎn)。

這種全新的控制方法非常靈活、強(qiáng)大且簡(jiǎn)單,有手就行,只需在圖像上「拖動(dòng)」想改變的位置點(diǎn)(操縱點(diǎn)),就能合成你想要的圖像。

3. 運(yùn)算速度更快

影響Diffusion在生成圖片的速度除了顯卡的性能,很重要一個(gè)原因是,每生成一張圖片需要去噪1000次,速度相對(duì)還不是很快,為了能在解決這個(gè)問(wèn)題,OpenAI曾在3月發(fā)布了一篇重磅、且含金量十足的論文「一致性模型 Consistency Models」,在訓(xùn)練速度上顛覆了擴(kuò)散模型,能夠 『一步生成』 ,比擴(kuò)散模型更快一個(gè)數(shù)量級(jí)完成簡(jiǎn)單任務(wù),而且用到的計(jì)算量還要少10-2000倍。

以上就是從圖像生成技術(shù)里程事件到對(duì)圖像生成技術(shù)的科普以及未來(lái)的發(fā)展趨勢(shì)分析,我相信通過(guò)以上內(nèi)容很容易就理解了AI繪畫(huà)背后的技術(shù)。下一篇對(duì)AI繪畫(huà)產(chǎn)品商業(yè)化落地進(jìn)行分析。

作者:Rzhiyi,8年產(chǎn)品經(jīng)理經(jīng)驗(yàn),做過(guò)AI皮膚檢測(cè)系統(tǒng)和SaaS類(lèi)產(chǎn)品

本文由@Rzhiyi 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀(guān)點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 好文,講的很清楚,贊??

    來(lái)自山西 回復(fù)