东京热av人妻无码,亚洲欧美一级夜夜夜夜爽W

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

AI繪畫(huà)技術(shù)原理解析

Rzhiyi

2023-05-27

1 評(píng)論 13266 瀏覽 53 收藏

27 分鐘

隨著AIGC的發(fā)展，AI繪畫(huà)逐漸進(jìn)入我們的生活和工作。本文將探討AI繪畫(huà)技術(shù)的各個(gè)方面。從圖像生成技術(shù)邁出的里程碑事件，到對(duì)AI繪畫(huà)技術(shù)的深度科普，再到未來(lái)的發(fā)展趨勢(shì)分析，相信本文將能夠?yàn)榇蠹医沂続I繪畫(huà)背后的神秘面紗，一起來(lái)深入了解其技術(shù)原理吧。

我會(huì)通過(guò)兩篇文章來(lái)對(duì)AI繪畫(huà)產(chǎn)品進(jìn)行分析，第一篇主要科普?qǐng)D像生成技術(shù)原理；第二篇是分析AI繪畫(huà)產(chǎn)品商業(yè)化落地，算是我近期對(duì)AI繪畫(huà)產(chǎn)品了解的一個(gè)總結(jié)輸出，以下是第一篇內(nèi)容。

2022年9月一幅名為《太空歌劇院》的畫(huà)作在數(shù)字藝術(shù)類(lèi)別比賽中一舉奪冠，這個(gè)震驚四座的畫(huà)作由游戲設(shè)計(jì)師Jason Allen使用Midjourney完成，AI繪畫(huà)進(jìn)入人們的視野。

人們第一次意識(shí)到AI做出來(lái)的畫(huà)可以如此精美，意識(shí)到AI繪畫(huà)可能如同當(dāng)年相機(jī)、數(shù)字繪畫(huà)的出現(xiàn)一樣，會(huì)給繪畫(huà)設(shè)計(jì)行業(yè)帶來(lái)一場(chǎng)深刻的變革。

這篇文章從產(chǎn)品經(jīng)理視角，了解AI繪畫(huà)產(chǎn)品的背后有哪些算法模型、他們的技術(shù)原理是什么？不同技術(shù)的邊界在哪里，使用場(chǎng)景在哪里？產(chǎn)品經(jīng)理要懂得將算法合理的組合使用，以滿(mǎn)足日常工作的需求，實(shí)現(xiàn)產(chǎn)品目標(biāo)。

AI繪畫(huà)發(fā)展的主要節(jié)點(diǎn)
AI繪畫(huà)的底層原理
主流的圖像生成模型解析
AI繪畫(huà)的可控性有哪些
AI繪畫(huà)的技術(shù)研究趨勢(shì)

一、AI繪畫(huà)發(fā)展的主要節(jié)點(diǎn)

1. 2012年AI畫(huà)出了一只模糊的貓

吳恩達(dá)和杰夫安迪使用了1.6萬(wàn)個(gè)CPU和You Tube上1000萬(wàn)張貓的圖片，用時(shí)3天時(shí)間訓(xùn)練了當(dāng)時(shí)最大的深度學(xué)習(xí)模型，最終生成了一張貓臉。

雖然這張貓的圖片看起來(lái)非常模糊，而且耗時(shí)又非常久，但對(duì)當(dāng)時(shí)的計(jì)算機(jī)視覺(jué)來(lái)講具有重要突破意義的嘗試，開(kāi)啟了AI繪畫(huà)研究的全新方向。

為什么當(dāng)時(shí)基于深度學(xué)習(xí)模型的AI繪畫(huà)那么麻煩？主要是整個(gè)模型需要利用大量標(biāo)注好的訓(xùn)練數(shù)據(jù)，根據(jù)輸入和所對(duì)應(yīng)的預(yù)期輸出，不斷地調(diào)整模型內(nèi)部的參數(shù)進(jìn)行匹配。例如生成一張512*512 *3（RGB）的畫(huà)，要將這些像素有規(guī)律的組合，會(huì)涉及到龐大參數(shù)迭代調(diào)整的過(guò)程。

2. 2015年文生圖重要的拐點(diǎn)

2015年出了一項(xiàng)人工智能的重大進(jìn)展——智能圖像識(shí)別。機(jī)器學(xué)習(xí)可以對(duì)圖像中的物體貼上標(biāo)簽，然后將這些標(biāo)簽轉(zhuǎn)化成自然語(yǔ)言描述。

一些研究人員產(chǎn)生了好奇，如果把這個(gè)過(guò)程反向，通過(guò)文字來(lái)生成畫(huà)面，是否也能實(shí)現(xiàn)呢？

于是他們向計(jì)算機(jī)模型輸入了一些文字，看看能產(chǎn)生什么原因，結(jié)果模型真的生成了一些結(jié)果圖片。如下圖中所示，這時(shí)產(chǎn)生了32*32像素的小圖片，基本很難辨別出啥，但已經(jīng)預(yù)示著無(wú)限的可能性。

3. 2021年OpenAI宣布Dalle

2021年年初，OpenAI發(fā)布了引發(fā)巨大關(guān)注的DALL-E系統(tǒng)，但DALL-E的繪畫(huà)水平還是很一般，之所以引發(fā)關(guān)注，是因?yàn)樗麑?shí)現(xiàn)了輸入文字就可以繪畫(huà)創(chuàng)作的可能，比之前生成的圖片質(zhì)量高很多。

4. 2022年開(kāi)啟AI繪畫(huà)的元年

2月 Disco diffusion V5發(fā)布

在2022年的2月，由somnai等幾個(gè)開(kāi)源社區(qū)的工程師做了一款基于擴(kuò)散模型的AI繪圖生成器——Disco diffusion。從它開(kāi)始，AI繪畫(huà)進(jìn)入了發(fā)展的快車(chē)道，潘多拉魔盒已經(jīng)打開(kāi)。

越來(lái)越多的人開(kāi)始使用Disco diffusion創(chuàng)作作品，但是它有一個(gè)致命的缺點(diǎn)就是它生成的畫(huà)面都十分的抽象，這些畫(huà)面用來(lái)生成抽象畫(huà)還不錯(cuò)，但是幾乎無(wú)法生成具象的人。

由于生成速度較慢，操作復(fù)雜、生成的風(fēng)格相對(duì)比較抽象，目前使用的人沒(méi)有Stable Diffusion 和Midjourney那么多。

3月 Midjouney

Midjouney選擇搭載在discord平臺(tái)，借助discord聊天式的人機(jī)交互方式，不需要之前繁瑣的操作，也沒(méi)有Disco diffusion十分復(fù)雜的參數(shù)調(diào)節(jié)，你只需要向聊天窗口輸入文字就可以生成圖像。更關(guān)鍵的是，Midjouney生成的圖片效果非常驚艷，普通人幾乎已經(jīng)很難分辨出它產(chǎn)生的作品，竟然是AI繪畫(huà)生成的。

4月 DALL·E 2

4月10日，之前提到過(guò)的OpenAI推出的第二代圖像生成人工智能模型DALL·E 2。與第一代DALL-E相比，DALL-E 2在圖像質(zhì)量、生成速度和多樣性等方面都有顯著提升。影響力不及Chat GPT，個(gè)人消費(fèi)者對(duì)他沒(méi)有那么喜歡，因?yàn)樗傻膱D片的風(fēng)格更傾向于更一本正經(jīng)，比較傳統(tǒng)一些。

7月 Stable diffusion

7月29日一款叫Stable diffusion的AI生成器開(kāi)始內(nèi)測(cè)，人們發(fā)現(xiàn)用它生成的AI繪畫(huà)作品，其質(zhì)量可以媲美DALL·E 2，而且還沒(méi)那么多限制。

Stable diffusion內(nèi)測(cè)不到1個(gè)月，正式宣布開(kāi)源，開(kāi)源讓AI繪畫(huà)技術(shù)的普及，也是讓領(lǐng)域能有更多人開(kāi)發(fā)貢獻(xiàn)，加快技術(shù)的應(yīng)用發(fā)展。

二、AI繪畫(huà)的底層原理

AI繪畫(huà)的根源來(lái)源于人工神經(jīng)網(wǎng)絡(luò)，科學(xué)家受人類(lèi)神經(jīng)元啟發(fā)，設(shè)計(jì)出的人工神經(jīng)網(wǎng)絡(luò)長(zhǎng)下面這樣。

神經(jīng)網(wǎng)絡(luò)都是用數(shù)學(xué)公式表示的，沒(méi)有實(shí)體結(jié)構(gòu)，圖里面的這些圈和連線(xiàn)是對(duì)神經(jīng)網(wǎng)絡(luò)的一種可視化呈現(xiàn)，方便我們理解。

這圖中圓圈里都有一個(gè)計(jì)數(shù)器，當(dāng)這個(gè)計(jì)數(shù)器接收到左邊連線(xiàn)傳來(lái)的數(shù)時(shí)，會(huì)進(jìn)行一次簡(jiǎn)單的計(jì)算，然后把計(jì)算結(jié)果（也是一個(gè)數(shù)）輸出，通過(guò)連線(xiàn)傳給右邊的圓圈，繼續(xù)重復(fù)類(lèi)似的過(guò)程，直到數(shù)字從最右側(cè)的圓圈輸出。

人類(lèi)的不同神經(jīng)元之間連接的強(qiáng)度是不一樣的，有些粗一點(diǎn)，有些細(xì)一點(diǎn)。正是這些連接強(qiáng)度，讓我們產(chǎn)生了記憶和知識(shí)。

對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)，也有相似的規(guī)律：圓圈和圓圈之間的連線(xiàn)的“權(quán)重”不同。

神經(jīng)網(wǎng)絡(luò)左側(cè)輸入一些列數(shù)字，神經(jīng)網(wǎng)絡(luò)會(huì)按照?qǐng)A圈里的計(jì)算規(guī)則及連線(xiàn)的權(quán)重，把數(shù)字從左到右計(jì)算和傳遞，最終，從最右側(cè)的圓圈輸出一系列數(shù)字。

那如何讓神經(jīng)網(wǎng)絡(luò)畫(huà)一幅畫(huà)？

原理其實(shí)比較好理解，首先需要將圖片轉(zhuǎn)化成計(jì)算機(jī)能理解的數(shù)字語(yǔ)言，對(duì)于計(jì)算機(jī)而言圖片就是一串?dāng)?shù)字，每個(gè)像素顏色由3個(gè)RGB數(shù)值表示。

然后將一串?dāng)?shù)字輸入到?jīng)]有訓(xùn)練過(guò)得神經(jīng)網(wǎng)絡(luò)模型，也會(huì)生成一串?dāng)?shù)字，只不過(guò)解碼后可能就是一張亂碼圖片，所以需要大量數(shù)據(jù)和不斷調(diào)整算法參數(shù)的權(quán)重，最終訓(xùn)練一個(gè)能畫(huà)貓的模型。例如當(dāng)輸入圖片貓或文字貓，都能轉(zhuǎn)化成一串?dāng)?shù)字到模型中，輸出一個(gè)正確的貓圖片。

圖像生成模型是在不斷演化的，從最早的VAE到風(fēng)靡一時(shí)的GAN，到當(dāng)今的王者Diffusion模型，那我們接下來(lái)介紹下不同模型的技術(shù)原理是什么。

三、主流的圖像生成模型解析

1. VAE — 打開(kāi)生成模型的大門(mén)

VAE是AE的升級(jí)版本，AE由一個(gè)編碼器網(wǎng)絡(luò)和一個(gè)解碼器網(wǎng)絡(luò)組成。編碼器將輸入數(shù)據(jù)映射到潛在空間中的隱變量表示，解碼器則將隱變量映射回重構(gòu)的數(shù)據(jù)空間。

如上圖，假設(shè)有一張圖像，通過(guò)編碼器提取了多種特征，比如特征1字體顏色、特征2字體粗細(xì)、特征3字體形狀。傳統(tǒng)的自編碼器對(duì)輸入圖像的潛在特征表示為具體的數(shù)值，比如顏色=0.5，粗細(xì)=0.8，形狀=0.6。這些數(shù)值通過(guò)解碼器恢復(fù)出于原圖像相似的圖像。

那這樣的模型解決什么問(wèn)題呢？

主要應(yīng)用在降維/可視化和去噪的場(chǎng)景中。

我們生活存在大量的文本、圖像、語(yǔ)音數(shù)據(jù)，這些數(shù)據(jù)存在大量的冗余信息，理論上是可以用極少的向量來(lái)表示，所以可以用來(lái)圖像壓縮處理，這跟傳統(tǒng)的圖像壓縮技術(shù)完全不一樣。后面講到的stable diffusion 模型就用到AE的潛空間來(lái)進(jìn)行低維度的降噪和生成真實(shí)圖像。

在應(yīng)用場(chǎng)景中也能發(fā)現(xiàn)，他僅適合用于重建圖像，不適用于生成新的圖像，所以有了VAE的誕生。

VAE與AE的區(qū)別在，VAE在編碼器輸出的分布曲線(xiàn)值，而非離散值，這樣的話(huà)輸入的圖像就跟壓縮向量就不是直接對(duì)應(yīng)關(guān)系，這樣就可以生成新的圖像。

如上圖，我們將每個(gè)特征通過(guò)概率分布進(jìn)行表示。比如顏色的取值范圍為[-1,1]，粗細(xì)的取值范圍為[-3,3]，形狀的取值范圍為[-5,5]。我們可以在范圍內(nèi)對(duì)每個(gè)特征進(jìn)行取值，然后通過(guò)解碼器生成新圖像。例如給一張人臉可以生成不同表情的人臉。

VAE不僅除了應(yīng)用在壓縮、去噪和生成新的圖像也可以應(yīng)用在圖像分割上，例如自動(dòng)駕駛的道路檢測(cè)。

但VAE生成圖像存在局限性，生成圖像的質(zhì)量不高，存在模糊和不真實(shí)。

2. GAN — 創(chuàng)建“以假亂真”的新數(shù)據(jù)

GAN包含了兩個(gè)模型，生成模型（Generator)和判別模型（Discirminator）,給生成模型隨機(jī)輸入噪聲，生成圖片；給判別模型輸入真實(shí)數(shù)據(jù)和生成的圖片，判別生成的圖片是真的還是假的。

剛開(kāi)始生成器生成的圖片給判別器，判別器一看就是假的，打回去讓生成器重新生成，同樣判別模型也要提升自己的判別水平，經(jīng)過(guò)無(wú)數(shù)次的對(duì)抗，直到生成模型生成的圖片騙過(guò)判別模型。

GAN的應(yīng)用場(chǎng)景有哪些？

GAN的應(yīng)用場(chǎng)景非常廣泛，在圖像生成，生成不存在的人物、物體、動(dòng)物；圖像修復(fù)、圖像增強(qiáng)、風(fēng)格化和藝術(shù)的圖像創(chuàng)造等。不一一列舉，想要詳細(xì)了解的可以看鏈接：https://zhuanlan.zhihu.com/p/75789936

曾經(jīng)大紅大紫的GAN為什么會(huì)被Diffusion取代?

1.GAN的訓(xùn)練過(guò)程過(guò)程相對(duì)不穩(wěn)定，生成器和判別器之間的平衡很容易打破，容易導(dǎo)致模型崩潰或崩塌問(wèn)題;

2.判別器不需要考慮生成樣品的種類(lèi)，而只關(guān)注于確定每個(gè)樣品是否真實(shí)，這使得生成器只需要生成少數(shù)高質(zhì)量的圖像就足以愚弄判別者;

3.生成的圖像分辨率較低;

因此，以GAN模型難以創(chuàng)作出有創(chuàng)意的新圖像，也不能通過(guò)文字提示生成新圖像。

3. Diffusion — 圖像生成模型的皇冠

目前主流國(guó)內(nèi)外靠譜的圖片生成技術(shù)主要基本都是基于Diffusion Model (擴(kuò)散模型) 來(lái)進(jìn)行的實(shí)現(xiàn)，包括不限于 Stable Diffusion MidJourney 、 OpenAl DALL.E 、DiscoDiffusion、Google lmagen 等主流產(chǎn)品，但是實(shí)際技術(shù)在處理方面又各有區(qū)別，也導(dǎo)致會(huì)有不司的表現(xiàn)形態(tài)，核心一方面是底層模型訓(xùn)練的圖語(yǔ)料不同，另外一個(gè)方面是一些算法方面的微調(diào)區(qū)別。

Diffusion模型生成圖片的過(guò)程可以理解像是石雕的過(guò)程，從一塊石頭經(jīng)過(guò)不斷的雕刻變成一件藝術(shù)作品，從一個(gè)噪點(diǎn)圖像不斷去噪生成一張真實(shí)圖像。

那擴(kuò)散模型是怎么訓(xùn)練的？

Diffusion模型的訓(xùn)練可以分為兩個(gè)部分：

前向擴(kuò)散過(guò)程（Forward Diffusion Process） —— 向圖片中不斷添加噪聲，直到圖片變成完全的噪點(diǎn)圖片的過(guò)程。
反向擴(kuò)散過(guò)程（Reverse Diffusion Process） —— 是將噪點(diǎn)圖片不斷的還原為原始圖片的過(guò)程。

官方給出的有3個(gè)訓(xùn)練步驟，如下圖：

對(duì)于每張圖像先隨機(jī)生成一個(gè)長(zhǎng)T，T表示從一張?jiān)紙D到高斯噪聲圖要多少次。
給原始圖片添加T次高斯噪聲，不同T時(shí)圖像添加的噪聲深度會(huì)有所不同。
將T和對(duì)應(yīng)的圖片放入到UNet模型中訓(xùn)練，這樣還原圖片就能預(yù)測(cè)T步驟中的噪聲。

反向擴(kuò)散訓(xùn)練過(guò)程步驟如下圖：

采樣一張高斯噪聲圖，假如T設(shè)置為1000
將高斯噪聲和T輸入到UNet模型中預(yù)測(cè)噪聲，下一步的高斯噪聲為上一步高斯噪聲減去預(yù)測(cè)噪聲，以此步驟直到T為0
T為0時(shí)還原最終的圖像

Diffusion模型的大數(shù)據(jù)訓(xùn)練，數(shù)據(jù)訓(xùn)練來(lái)自于LAION-5B包含58.3文本-圖像對(duì)，并且是篩選了評(píng)分高的圖片進(jìn)行訓(xùn)練。通過(guò)大數(shù)據(jù)模型訓(xùn)練，讓模型具有生成圖像的能力。有了生成圖像能力還不夠，需要能聽(tīng)得懂需求的能力，根據(jù)文字輸入就能生成圖像。

4. CLIP—打造圖文匹配

CLIP是OpenAI在2021年開(kāi)源的模型，一種基于對(duì)比文本-圖像對(duì)的預(yù)訓(xùn)練方法或者模型，確保計(jì)算機(jī)在文字描述和圖像之間形成互通。

在CLIP推出一年后，幾個(gè)開(kāi)源社區(qū)的工程基于CLIP+Diffusion就開(kāi)發(fā)了Disco Diffusion,后面的midjourney和stable diffusion模型都有使用CLIP模型。

據(jù)統(tǒng)計(jì)，CLIP模型搜集了網(wǎng)絡(luò)上超過(guò)4億的“文本-圖像”作為訓(xùn)練數(shù)據(jù)，為文本生成圖像/視頻應(yīng)用的落地奠定了基礎(chǔ)，實(shí)現(xiàn)了跨模態(tài)的創(chuàng)新。

以上圖像生成相關(guān)的模型都以解析完，那我們拿Stable Diffusion 來(lái)進(jìn)行梳理下整個(gè)圖像生成的流程是怎么樣和整體架構(gòu),其他圖像生成模型大致也差不多。

5. Stable Diffusion 模型結(jié)構(gòu)

Stable Diffusion主要有三部分組成，像素空間、潛在空間、條件機(jī)制。

像素空間:使用的AE模型將圖像壓縮到潛在空間訓(xùn)練和將生成的低維向量轉(zhuǎn)化成真實(shí)圖像，這樣提升生成速度和降低算力要求。

潛在空間：Diffusion模型在潛在空間進(jìn)行加噪和去噪的訓(xùn)練,去噪的過(guò)程需要導(dǎo)入條件，生成符合預(yù)期圖片。

條件機(jī)制：條件可以是文字、圖像、音頻、視頻，將條件轉(zhuǎn)化成向量值，作為Diffusion模型生成過(guò)程中的引導(dǎo)因子。

Stable Diffusion圖像生成流如下：

通過(guò)以上擴(kuò)散模型原理大致也明白AI生成的圖像帶有較大的隨機(jī)性，生成的每張圖像都不一樣，這種隨機(jī)性帶來(lái)的好處是無(wú)窮無(wú)盡的想象力，但同時(shí)也面臨著不可控，有點(diǎn)靠運(yùn)氣，生成理想的圖像只能多嘗試。AI繪畫(huà)想要擴(kuò)大商業(yè)化落地，必須要解決精準(zhǔn)可控性問(wèn)題。

四、AI繪畫(huà)的可控性有哪些

除了輸入文字、墊圖的方式還最流行的微調(diào)模型叫Lora和最近幾個(gè)月更新的Controlnet來(lái)控制圖片的生成，這幾個(gè)小模型可以理解為Stable Diffusion的一種插件。

1. Lora模型

在不修改SD模型的前提下，教會(huì)利用少量數(shù)據(jù)訓(xùn)練出只可意會(huì)不可言傳的風(fēng)格，實(shí)現(xiàn)定制化需求，對(duì)算力的要求不高，模型適中在幾十MB大小。

Lora 必須搭配在SD模型上一起使用。

Lora可以自己訓(xùn)練也可以在著名的模型分享網(wǎng)站https://civitai.com/上下載，有大量Lora模型，其中SD模型僅有2000個(gè)，剩下4萬(wàn)個(gè)基本都是LoRA等小模型。

例如想要生成下面風(fēng)格的汽車(chē)，我們找到這款不同角度的一些圖片作為L(zhǎng)ora訓(xùn)練。生成汽車(chē)的風(fēng)格跟想要風(fēng)格汽車(chē)很相似。

微調(diào)模型不止有Lora 模型，還有Textual Inversion、Hypernetwork、Dreambooth。只是Lora 模型比較穩(wěn)定，使用門(mén)檻相對(duì)低，所以目前比較流行。

2. Controlnet模型

Controlnet就是控制網(wǎng)的意思，其實(shí)就是在大模型外部通過(guò)疊加一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)達(dá)到精準(zhǔn)控制輸出的內(nèi)容。很好的解決了單純的關(guān)鍵詞的控制方式無(wú)法滿(mǎn)足對(duì)細(xì)節(jié)控制的需要，比微調(diào)模型更進(jìn)一步對(duì)圖像生成的控制。

想要對(duì)Controlnet有更詳細(xì)的了解可查看如下鏈接：

https://zhuanlan.zhihu.com/p/625707834

https://mp.weixin.qq.com/s/-r7qAkZbG4K2Clo-EvvRjA

https://mp.weixin.qq.com/s/ylVbqeeZc7XUHmrIrNmw9Q

五、AI繪畫(huà)的技術(shù)研究趨勢(shì)

1. 更強(qiáng)的語(yǔ)義理解

使用AI繪畫(huà)生成高質(zhì)量、精美的生成圖像需要在在prompt做很多努力，可見(jiàn)prompt對(duì)最終效果的影響。因此，如何降低用戶(hù)使用prompt的門(mén)檻，讓AI更能理解語(yǔ)義，值得研究的方向。

2. 更精準(zhǔn)可控生成

目前可控生成是一個(gè)大火的領(lǐng)域，也有像ControlNet這樣的精品，可以通過(guò)輸入簡(jiǎn)單的線(xiàn)稿圖、人體姿態(tài)圖、分割圖、深度圖等生成滿(mǎn)足條件的內(nèi)容，但距離真正的精準(zhǔn)控制仍有差距?？上驳氖?，可控生成發(fā)展得越來(lái)越快，精準(zhǔn)控制并不是遙不可及，圖像生成AI也會(huì)隨之拓展其應(yīng)用邊界，如一致性的視頻生成、精確的構(gòu)圖設(shè)計(jì)都會(huì)改變?cè)S多領(lǐng)域的工作方式。

最近，來(lái)自馬克斯?普朗克計(jì)算機(jī)科學(xué)研究所、MIT CSAIL 和谷歌的研究者們研究了一種控制 GAN 的新方法 DragGAN，能夠讓用戶(hù)以交互的方式「拖動(dòng)」圖像的任何點(diǎn)精確到達(dá)目標(biāo)點(diǎn)。

這種全新的控制方法非常靈活、強(qiáng)大且簡(jiǎn)單，有手就行，只需在圖像上「拖動(dòng)」想改變的位置點(diǎn)（操縱點(diǎn)），就能合成你想要的圖像。

3. 運(yùn)算速度更快

影響Diffusion在生成圖片的速度除了顯卡的性能，很重要一個(gè)原因是，每生成一張圖片需要去噪1000次，速度相對(duì)還不是很快，為了能在解決這個(gè)問(wèn)題，OpenAI曾在3月發(fā)布了一篇重磅、且含金量十足的論文「一致性模型 Consistency Models」，在訓(xùn)練速度上顛覆了擴(kuò)散模型，能夠『一步生成』，比擴(kuò)散模型更快一個(gè)數(shù)量級(jí)完成簡(jiǎn)單任務(wù)，而且用到的計(jì)算量還要少10-2000倍。

以上就是從圖像生成技術(shù)里程事件到對(duì)圖像生成技術(shù)的科普以及未來(lái)的發(fā)展趨勢(shì)分析，我相信通過(guò)以上內(nèi)容很容易就理解了AI繪畫(huà)背后的技術(shù)。下一篇對(duì)AI繪畫(huà)產(chǎn)品商業(yè)化落地進(jìn)行分析。

作者：Rzhiyi，8年產(chǎn)品經(jīng)理經(jīng)驗(yàn)，做過(guò)AI皮膚檢測(cè)系統(tǒng)和SaaS類(lèi)產(chǎn)品

本文由@Rzhiyi 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于 CC0 協(xié)議

該文觀(guān)點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App