AI繪畫何以突飛猛進? 從歷史到技術(shù)突破, 一文讀懂火爆的AI繪畫發(fā)展史

0 評論 3218 瀏覽 5 收藏 44 分鐘

作者深感當(dāng)今AI繪畫的飛速進展或許已遠超所有人的預(yù)期,所以本文介紹了包括AI繪畫的歷史,以及最近的突破性進展,并反思了AI繪畫的突破對人類意味著什么,值得好好和大伙兒梳理一下,我們一起來看看吧!

前言

自從前段時間偶然間被當(dāng)下AI繪畫的水平震住之后(超越一切的AI作畫神器,和它創(chuàng)作的234個盔甲美女未來戰(zhàn)士) ,作者深感當(dāng)今AI繪畫的飛速進展或許已遠超所有人的預(yù)期。 而這里的前因后果,包括AI繪畫的歷史,以及最近的突破性進展,值得好好和大伙兒梳理和分享一下。 因此有了本文。

本文分為如下幾小節(jié):

  1. 2022,進擊的AI繪畫
  2. AI繪畫的歷史
  3. AI繪畫何以突飛猛進
  4. 頂級AI繪畫模型的PK
  5. AI繪畫的突破對人類意味著什么

一、2022,進擊的AI繪畫

今年以來,輸入文本描述自動生成圖片的AI繪畫神器突然雨后春筍的冒了出來。

首先是Disco Diffusion。

Disco Diffusion 是在今年 2 月初開始爆紅的一個 AI 圖像生成程序,它可以根據(jù)描述場景的關(guān)鍵詞渲染出對應(yīng)的圖像:

AI繪畫何以突飛猛進?從歷史到技術(shù)突破,一文讀懂火爆的AI繪畫發(fā)展史

到了今年4月,著名人工智能團隊OpenAI 也發(fā)布了新模型 DALL·E 2代,該名稱來源于著名畫家達利(Dalí)和機器人總動員(Wall-E),同樣支持從文本描述生成效果良好的圖像。

AI繪畫何以突飛猛進?從歷史到技術(shù)突破,一文讀懂火爆的AI繪畫發(fā)展史

而很多讀者對AI繪畫開始產(chǎn)生特別的關(guān)注,或許是從以下這幅AI作品鬧出的新聞開始的:

AI繪畫何以突飛猛進?從歷史到技術(shù)突破,一文讀懂火爆的AI繪畫發(fā)展史

這是一幅使用AI繪畫服務(wù) MidJourney 生成的數(shù)字油畫,生成它的用戶以這幅畫參加美國科羅拉多州博覽會的藝術(shù)比賽,奪得了第一名。 這件事被曝光之后引發(fā)了網(wǎng)絡(luò)上巨大的爭論至今。

目前 AI繪畫的技術(shù)仍在不斷變化發(fā)展中,其迭代之快,完全可以用”日新月異”來形容。即使把今年年初的AI繪畫和現(xiàn)在相比,效果也有天壤之別。

在年初的時候,用Disco Diffusion可以生成一些很有氛圍感的草圖,但基本還無法生成人臉; 僅僅2個月后,DALL-E 2已經(jīng)可以生成準確的五官; 現(xiàn)在,最強大的Stable Diffusion在畫作的精致程度和作畫速度上更是有了一個量級的變化。

AI繪畫這項技術(shù)并不是近年才有的,但是今年以來,AI產(chǎn)出作品的質(zhì)量以肉眼可見的速度日益提升,而效率也從年初的一個小時縮短到現(xiàn)在的十幾秒。

在這個變化后面,究竟發(fā)生了什么事情?就讓我們先全面回顧一下AI繪畫的歷史,再來理解一下,這一年多來,AI繪畫技術(shù)足以載入史冊的突破發(fā)展。

二、AI繪畫的歷史

AI繪畫的出現(xiàn)時間可能比很多人想象的要早。

計算機是上世紀60年代出現(xiàn)的,而就在70年代,一位藝術(shù)家,哈羅德·科恩Harold Cohen(畫家,加利福尼亞大學(xué)圣地亞哥分校的教授) 就開始打造電腦程序”AARON”進行繪畫創(chuàng)作。 只是和當(dāng)下AI繪畫輸出數(shù)字作品有所不同,AARON是真的去控制一個機械臂來作畫的。

Harold 對 AARON的改進一直持續(xù)了幾十年,直到他離世。 在80年代的時候,ARRON”掌握”了三維物體的繪制; 90年代時,AARON能夠使用多種顏色進行繪畫,據(jù)稱直到今天,ARRON仍然在創(chuàng)作。

不過,AARON的代碼沒有開源,所以其作畫的細節(jié)無從知曉,但可以猜測,ARRON只是以一種復(fù)雜的編程方式描述了作者Harold本人對繪畫的理解 — 這也是為什么ARRON經(jīng)過幾十年的學(xué)習(xí)迭代,最后仍然只能產(chǎn)生色彩艷麗的抽象派風(fēng)格畫作,這正是 Harold Cohen 本人的抽象色彩繪畫風(fēng)格。 Harold用了幾十年時間,把自己對藝術(shù)的理解和表現(xiàn)方式通過程序指導(dǎo)機械臂呈現(xiàn)在了畫布上。

AI繪畫何以突飛猛進?從歷史到技術(shù)突破,一文讀懂火爆的AI繪畫發(fā)展史

(左:ARRON和哈羅德??贫?右: ARRON 在 1992 年的創(chuàng)作作品)

盡管難說AARON如何智能,但作為第一個自動作畫且真的在畫布上作畫的程序,給予它一個AI作畫鼻祖的稱號,倒也符合其身份。

2006年,出現(xiàn)了一個類似ARRON的電腦繪畫產(chǎn)品 The Painting Fool。 它可以觀察照片,提取照片里的塊顏色信息,使用現(xiàn)實中的繪畫材料如油漆,粉彩或者和鉛筆等進行創(chuàng)作。

以上這兩個例子算是比較”古典”方式的電腦自動繪畫,有點像一個學(xué)步的嬰兒,有一點樣子,但從智能化的角度來看是相當(dāng)初級的。

而現(xiàn)在,我們所說的”AI繪畫”概念,更多指的是基于深度學(xué)習(xí)模型來進行自動作圖的計算機程序。 這個繪畫方式的發(fā)展其實是比較晚的。

在2012年 Google兩位大名鼎鼎的AI大神,吳恩達和Jef Dean進行了一場空前的試驗,聯(lián)手使用1。6萬個CPU訓(xùn)練了一個當(dāng)時世界上最大的深度學(xué)習(xí)網(wǎng)絡(luò),用來指導(dǎo)計算機畫出貓臉圖片。 當(dāng)時他們使用了來自youtube的1000萬個貓臉圖片,1。6萬個CPU整整訓(xùn)練了3天,最終得到的模型,令人振奮的可以生成一個非常模糊的貓臉。

AI繪畫何以突飛猛進?從歷史到技術(shù)突破,一文讀懂火爆的AI繪畫發(fā)展史

在今天看起來,這個模型的訓(xùn)練效率和輸出結(jié)果都不值一提。 但對于當(dāng)時的AI研究領(lǐng)域,這是一次具有突破意義的嘗試,正式開啟了深度學(xué)習(xí)模型支持的AI繪畫這個”全新”研究方向。

在這里我們稍微講一點技術(shù)細節(jié): 基于深度學(xué)習(xí)模型的AI繪畫究竟有多麻煩呢,為什么2012年已經(jīng)很現(xiàn)代水平的大規(guī)模計算機集群耗時多天的訓(xùn)練只能得出一點可憐的結(jié)果?

讀者們或許有個基本概念,深度學(xué)習(xí)模型的訓(xùn)練簡單說來就是利用外部大量標注好的訓(xùn)練數(shù)據(jù)輸入,根據(jù)輸入和所對應(yīng)的預(yù)期輸出,反復(fù)調(diào)整模型內(nèi)部參數(shù)加以匹配的過程。

那么讓AI學(xué)會繪畫的過程,就是構(gòu)建已有畫作的訓(xùn)練數(shù)據(jù),輸入AI模型進行參數(shù)迭代調(diào)整的過程。

一幅畫帶有多少信息呢?首先就是長x寬個RGB像素點。 讓計算機學(xué)繪畫,最簡單的出發(fā)點是得到一個輸出有規(guī)律像素組合的AI模型。

但RGB像素組合一起的并非都是畫作,也可能只是噪點。 一副紋理豐富,筆觸自然的畫作有很多筆畫完成,涉及繪畫中每一筆的位置,形狀,顏色等多個方面的參數(shù),這里涉及到的參數(shù)組合是非常龐大的。 而深度模型訓(xùn)練的計算復(fù)雜度隨著參數(shù)輸入組合的增長而急劇增長…… 大家可以理解這個事情為啥不簡單了。

在吳恩達和Jeff Dean開創(chuàng)性的貓臉生成模型之后,AI科學(xué)家們開始前赴后繼投入到這個新的挑戰(zhàn)性領(lǐng)域里。 在2014年,AI學(xué)術(shù)界提出了一個非常重要的深度學(xué)習(xí)模型,這就是大名鼎鼎的對抗生成網(wǎng)絡(luò)GAN(Generative Adverserial Network,GAN)。

正如同其名字”對抗生成”,這個深度學(xué)習(xí)模型的核心理念是讓兩個內(nèi)部程序 “生成器(generator)” 和“判別器(discriminator)”互相PK平衡之后得到結(jié)果。

GAN模型一問世就風(fēng)靡AI學(xué)術(shù)界,在多個領(lǐng)域得到了廣泛的應(yīng)用。 它也隨即成為了很多AI繪畫模型的基礎(chǔ)框架,其中生成器用來生成圖片,而判別器用來判斷圖片質(zhì)量。 GAN的出現(xiàn)大大推動了AI繪畫的發(fā)展。

但是,用基礎(chǔ)的GAN模型進行AI繪畫也有比較明顯的缺陷,一方面是對輸出結(jié)果的控制力很弱,容易產(chǎn)生隨機圖像,而AI藝術(shù)家的輸出應(yīng)該是穩(wěn)定的。 另外一個問題是生成圖像的分辨率比較低。

分辨率的問題還好說,GAN在”創(chuàng)作”這個點上還存在一個死結(jié),這個結(jié)恰恰是其自身的核心特點: 根據(jù)GAN基本架構(gòu),判別器要判斷產(chǎn)生的圖像是否和已經(jīng)提供給判別器的其他圖像是同一個類別的,這就決定了在最好的情況下,輸出的圖像也就是對現(xiàn)有作品的模仿,而不是創(chuàng)新…………

在對抗生成網(wǎng)絡(luò)GAN之外,研究人員也開始利用其他種類的深度學(xué)習(xí)模型來嘗試教AI繪畫。

一個比較著名的例子是2015年 Google發(fā)布的一個圖像工具深夢(Deep Dream)。 深夢發(fā)布了一系列畫作,一時吸引了很多眼球。谷歌甚至為這個深夢的作品策劃了一場畫展。

AI繪畫何以突飛猛進?從歷史到技術(shù)突破,一文讀懂火爆的AI繪畫發(fā)展史

但如果較真一下,深夢與其說是AI繪畫,更像是一個高級AI版濾鏡,其濾鏡風(fēng)格一看上面的作品便可明白。

和作品不尷不尬的Deep Dream相比,Google更靠譜的是2017年成千張手繪簡筆畫圖片訓(xùn)練的一個模型,AI通過訓(xùn)練能夠繪制一些簡筆畫。(Google,《A Neural Representation of Sketch Drawings》)

這個模型之所以受到廣泛關(guān)注有一個原因,Google把相關(guān)源代碼開源了,因此第三方開發(fā)者可以基于該模型開發(fā)有趣的AI簡筆畫應(yīng)用。一個在線應(yīng)用叫做 “Draw Together with a Neural Network” ,隨意畫幾筆,AI就可以自動幫你補充完整個圖形。

值得注意的是,在AI繪畫模型的研究過程中,各互聯(lián)網(wǎng)大廠成了主力,除了上述Google所做的研究,比較有名的是2017年7月,F(xiàn)acebook聯(lián)合羅格斯大學(xué)和查爾斯頓學(xué)院藝術(shù)史系三方合作得到的新模型,號稱創(chuàng)造性對抗網(wǎng)絡(luò)(CAN,Creative Adversarial Networks)

(Facebook,《CAN: Creative Adversarial Networks,Generating “Art” by Learning About Styles and Deviating from Style Norms》)

從下圖的作品集可以看出,這個創(chuàng)造性對抗網(wǎng)絡(luò)CAN在嘗試輸出一些像是藝術(shù)家作品的圖畫,它們是獨一無二的,而不是現(xiàn)存藝術(shù)作品的仿品。

AI繪畫何以突飛猛進?從歷史到技術(shù)突破,一文讀懂火爆的AI繪畫發(fā)展史

CAN模型生成作品里所體現(xiàn)的創(chuàng)造性讓當(dāng)時的開發(fā)研究人員都感到震驚,因為這些作品看起來和藝術(shù)圈子流行的抽象畫非常類似。 于是研究人員組織了一場圖靈測試,請觀眾們?nèi)ゲ逻@些作品是人類藝術(shù)家的作品,還是人工智能的創(chuàng)作。

結(jié)果,53%的觀眾認為CAN模型的AI藝術(shù)作品出自人類之手,這在歷史上類似的圖靈測試里首次突破半數(shù)。

但CAN這個AI作畫,僅限于一些抽象表達,而且就藝術(shù)性評分而言,還遠遠達不到人類大師的水平。

更不用說創(chuàng)作出一些寫實或者具象的繪畫作品了,不存在的。

其實一直到2021年初,OpenAI發(fā)布了廣受關(guān)注的DALL-E系統(tǒng),其AI繪畫的水平也就一般,下面是DALL-E畫一只狐貍的結(jié)果,勉強可以辨別。

AI繪畫何以突飛猛進?從歷史到技術(shù)突破,一文讀懂火爆的AI繪畫發(fā)展史

但值得注意的是,到了DALL-E這里,AI開始擁有了一個重要的能力,那就是可以按照文字輸入提示來進行創(chuàng)作了!

接下來,我們繼續(xù)去探求本文一開始提出的問題。 不知各位讀者是否有同感,自今年以來,AI繪畫的水平突然大漲,和之前的作品質(zhì)量相比有本質(zhì)的飛躍,恍然有種一日不見如隔三秋的感覺。

事出必有妖。 究竟發(fā)生了什么情況?我們慢慢道來。

三、AI繪畫何以突飛猛進

在很多科幻電影或劇集里,往往會有這么一幕,主角和特別有科幻感的電腦AI說了一句話,然后AI生成了一個3D影像,用VR/AR/全息投影的方式呈現(xiàn)在主角面前。

拋開那些酷炫的視覺效果包裝,這里的核心能力是,人類用語言輸入,然后電腦AI理解人類的表達,生成一個符合要求的圖形圖像,展示給人類。

仔細一想,這個能力最基礎(chǔ)的形式,就是一個AI繪畫的概念嘛。(當(dāng)然,從平面繪畫到3D生成還稍有一點距離,但相比于AI憑空創(chuàng)作一幅具象有意義的繪畫作品的難度,從2D圖自動生成對應(yīng)的3D模型就不是一個量級上的問題)

所以,無論是用說話控制,還是更玄乎的腦電波控制,科幻影視中的酷炫場景實際上描述了一種AI能力 ,那就是把”語言描述” 通過AI理解自動變?yōu)榱藞D像。 目前語音自動識別文本的技術(shù)已經(jīng)成熟至極,所以這本質(zhì)上就是一個從文本到圖像的AI繪畫過程。

其實挺牛逼的,僅靠文字描述,沒有任何參考圖片,AI就能理解并自動把對應(yīng)內(nèi)容給畫出來了,而且畫得越來越好!這在昨天還感覺有點遠的事情,現(xiàn)在已真真切切出現(xiàn)在所有人的面前。

這一切到底怎么發(fā)生的呢?

首先要提到一個新模型的誕生。 還是前面提到的OpenAI團隊,在2021年1月開源了新的深度學(xué)習(xí)模型 CLIP(Contrastive Language-Image Pre-Training)。 一個當(dāng)今最先進的圖像分類人工智能。

CLIP訓(xùn)練AI同時做了兩個事情,一個是自然語言理解,一個是計算機視覺分析。 它被設(shè)計成一個有特定用途的能力強大的工具,那就是做通用的圖像分類,CLIP可以決定圖像和文字提示的對應(yīng)程度,比如把貓的圖像和”貓”這個詞完全匹配起來。

CLIP模型的訓(xùn)練過程,簡單的說,就是使用已經(jīng)標注好的”文字-圖像”訓(xùn)練數(shù)據(jù),一方面對文字進行模型訓(xùn)練,一方面對圖像進行另一個模型的訓(xùn)練,不斷調(diào)整兩個模型內(nèi)部參數(shù),使得模型分別輸出的文字特征值和圖像特征值能讓對應(yīng)的”文字-圖像”經(jīng)過簡單驗證確認匹配。

關(guān)鍵的地方來了,其實呢,之前也有人嘗試過訓(xùn)練”文字-圖像” 匹配的模型,但CLIP最大的不同是,它搜刮了40億個”文本-圖像”訓(xùn)練數(shù)據(jù)! 通過這天量的數(shù)據(jù),再砸入讓人咂舌的昂貴訓(xùn)練時間,CLIP模型終于修成正果。

聰明的讀者會問,這么多的“文本-圖像”記是誰做的呢?40億張啊,如果都需要人工來標記圖像相關(guān)文字,那時間成本和人力成本都是天價。 而這正是CLIP最聰明的地方,它用的是廣泛散布在互聯(lián)網(wǎng)上的圖片!

互聯(lián)網(wǎng)上的圖片一般都帶有各種文本描述,比如標題,注釋,甚至用戶打的標簽,等等,這就天然的成為了可用的訓(xùn)練樣本。 用這個特別機靈的方式,CLIP的訓(xùn)練過程完全避免了最昂貴費時的人工標注,或者說,全世界的互聯(lián)網(wǎng)用戶已經(jīng)提前做了標注工作了。

CLIP功能強大,但無論如何,它第一眼看上去,和藝術(shù)創(chuàng)作似乎沒啥關(guān)系。

但就在CLIP開源發(fā)布幾天后,一些機器學(xué)習(xí)工程師玩家就意識到,這個模型可以用來做更多的事情。 比如Ryan Murdock,想出了如何把其他AI連接到CLIP上,來打造一個AI圖像生成器。 Ryan Murdock在接受采訪時說:“在我把玩它幾天后,我意識到我可以生成圖像?!?/p>

最終他選擇了BigGAN,一個GAN模型的變種,并將代碼發(fā)布為Colab筆記The Big Sleep。

(注: Colab Notebook是Google提供的非常方便的Python Notebook交互式編程筆記本在線服務(wù),背后是Google云計算的支持。 略懂技術(shù)的用戶可以在一個類似筆記本的Web界面上編輯運行Python腳本并得到輸出。 重要的是,這個編程筆記是可以分享的 )

Big Sleep創(chuàng)作的圖畫其實略詭異和抽象,但這是一個很好的開始。

AI繪畫何以突飛猛進?從歷史到技術(shù)突破,一文讀懂火爆的AI繪畫發(fā)展史

隨后,西班牙玩家@RiversHaveWings在此基礎(chǔ)上發(fā)布了CLIP+VQGAN的版本和教程,這個版本通過Twitter被廣為轉(zhuǎn)發(fā)傳播,引起了AI研究界和愛好者們的高度關(guān)注。 而這個ID背后,正是現(xiàn)在所被熟知的計算機數(shù)據(jù)科學(xué)家 Katherine Crowson。

在之前,類似VQ-GAN這樣的生成工具在對大量圖像進行訓(xùn)練后,可以合成類似的新圖像,然而,如讀者還有印象,前面說過,GANs類型的模型本身并不能通過文字提示生成新圖像,也不擅長創(chuàng)作出全新的圖像內(nèi)容。

而把CLIP嫁接到GAN上去生成圖像,這其中的思路倒也簡單明了:

既然利用CLIP可以計算出任意一串文字和哪些圖像特征值相匹配,那只要把這個匹配驗證過程鏈接到負責(zé)生成圖像的AI模型(比如這里是VQ-GAN),負責(zé)生成圖像的模型反過來推導(dǎo)一個產(chǎn)生合適圖像特征值,能通過匹配驗證的圖像,不就得到一幅符合文字描述的作品了嗎?

有人認為 CLIP+VQGAN是自2015年Deep Dream以來人工智能藝術(shù)領(lǐng)域最大的創(chuàng)新。 而美妙的是,CLIP+VQGAN對任何想使用它們的人來說都是現(xiàn)成的。按照Katherine Crowson的線上教程和Colab Notebook,一個略懂技術(shù)的用戶可以在幾分鐘內(nèi)運行該系統(tǒng)。

有意思的是,上一章也提到,在同一個時間(2021年初),開源發(fā)布CLIP的OpenAI團隊也發(fā)布了自己的圖像生成引擎DALL-E。 DALL-E內(nèi)部也正是用了CLIP,但DALL-E并不開源!

所以論社區(qū)影響力和貢獻,DALL-E完全不能和CLIP+VQGAN的開源實現(xiàn)發(fā)布相比,當(dāng)然,開源CLIP已經(jīng)是OpenAI對社區(qū)做出的巨大貢獻了。

說到開源貢獻,這里還不得不提到LAION。

LAION 是一個跨全球的非營利機器學(xué)習(xí)研究機構(gòu),今年3月開放了當(dāng)前最大規(guī)模的開源跨模態(tài)數(shù)據(jù)庫LAION-5B,包含接近60億(5。85 Billion)個圖片-文本對,可以被用來訓(xùn)練所有從文字到圖像的的生成模型,也可以用于訓(xùn)練 CLIP這種用于給文本和圖像的匹配程度打分的模型,而這兩者都是現(xiàn)在 AI 圖像生成模型的核心。

除了提供以上的海量訓(xùn)練素材庫,LAION 還訓(xùn)練 AI 根據(jù)藝術(shù)感和視覺美感,給LAION-5B 里圖片打分,并把得高分的圖片歸進了一個叫 LAION-Aesthetics 的子集。

事實上,最新的AI繪畫模型包括隨后提到的AI繪畫模型王者 Stable Diffusion都是利用LAION-Aesthetics這個高質(zhì)量數(shù)據(jù)集訓(xùn)練出來的。

CLIP+VQGAN 引領(lǐng)了全新一代 AI圖像生成技術(shù)的風(fēng)潮,現(xiàn)在所有的開源 TTI(Text to Image,文本文本生成圖像)模型的簡介里都會對 Katherine Crowson 致謝,她是當(dāng)之無愧的全新一代AI繪畫模型的奠基者。

技術(shù)玩家們圍繞著CLIP+VQGAN開始形成社區(qū),代碼不斷有人做優(yōu)化改進,還有Twitter賬號專門收集和發(fā)布AI畫作。 而最早的踐行者Ryan Murdoch 還因此被招募進了Adobe擔(dān)任機器學(xué)習(xí)算法工程師。

不過這一波AI作畫浪潮的玩家主要還是AI技術(shù)愛好者。

盡管和本地部署AI開發(fā)環(huán)境相比,在Golab Notebooks上跑CLIP+VQGAN的門檻相對而言已經(jīng)比較低,但畢竟在Colab申請GPU運行代碼并調(diào)用AI輸出圖片,時不時還要處理一下代碼報錯,這不是大眾化人群特別是沒有技術(shù)背景的藝術(shù)創(chuàng)作者們可以做的。 而這也正是現(xiàn)在 MidJourney 這類零門檻的傻瓜式AI付費創(chuàng)作服務(wù)大放光彩的原因。

但激動人心的進展到這里還遠沒結(jié)束。 細心的讀者注意到,CLIP+VQGAN這個強力組合是去年初發(fā)布并在小圈子傳播的,但AI繪畫的大眾化關(guān)注,如開篇所說,則是在今年初開始,由Disco Diffusion這個線上服務(wù)所引爆。 這里還隔著大半年的時間。 是什么耽擱了呢?

一個原因是CLIP+VQGAN 模型所用到的圖像生成部分,即GAN類模型的生成結(jié)果始終不盡如人意。

AI人員注意到了另外一種圖像生成方式。

如果復(fù)習(xí)一下GAN模型的工作原理,其圖像輸出是內(nèi)部生成器和判斷器的PK妥協(xié)結(jié)果。

但還有另外一種思路,那就是Diffusion模型(擴散化模型)。

Diffusion這個詞也很高大上,但基本原理說出來大家都能理解,其實就是”去噪點”。 對,就是我們熟悉的手機拍照(特別是夜景拍照)的自動降噪功能。 如果把這個去噪點的計算過程反復(fù)進行,在極端的情況下,是不是可能把一個完全是噪聲的圖片還原為一個清晰的圖片呢?

AI繪畫何以突飛猛進?從歷史到技術(shù)突破,一文讀懂火爆的AI繪畫發(fā)展史

靠人當(dāng)然不行,簡單的去噪程序也不可能,但是基于AI能力去一邊”猜”一邊去噪,倒是可行的。

這就是Diffusion擴散化模型的基本思路。

Diffusion擴散化模型目前在計算機視覺領(lǐng)域的影響力越來越大,它能夠高效合成視覺數(shù)據(jù),圖片生成完全擊敗了GAN模型,而在其他領(lǐng)域如視頻生成和音頻合成也展現(xiàn)出了不俗的潛力。

今年初被大眾首先熟知的AI繪畫產(chǎn)品 Disco Diffusion,正是第一個基于CLIP + Diffusion 模型的實用化AI繪畫產(chǎn)品。

但Disco Diffusion的缺點還是有些明顯,如身為專業(yè)藝術(shù)家的 Stijn Windig 反復(fù)嘗試了Disco Diffusion,認為 Disco Diffusion 并沒有取代人工創(chuàng)作的能力,核心原因有2點:

  • Disco Diffusion 無法刻畫具體細節(jié),渲染出的圖像第一眼很驚艷,但仔細觀察就會發(fā)現(xiàn)大部分都是模糊的概括,達不到商業(yè)細節(jié)水準。
  • Disco Diffusion的初步渲染時間是以小時計算的,而要在渲染圖像的基礎(chǔ)上刻畫細節(jié),則相當(dāng)于要把整個圖重新畫一遍,這樣一個流程下來花耗費的時間精力,比直接手繪還要多。

不過 Stijn Windig 還是對AI繪畫的發(fā)展持樂觀態(tài)度,他覺得盡管直接利用 Disco Diffusion 進行商業(yè)化創(chuàng)作還不可行,但作為一種靈感參考還是非常好的:“……我發(fā)現(xiàn)它更適合作為一個創(chuàng)意生成器使用。給一個文字提示,它返回一些圖片能激發(fā)我的想象力,并可以作為草圖用來在上面繪畫?!?/p>

其實從技術(shù)上來說,Stijn提出的兩大痛點,1) AI繪畫細節(jié)還不夠深入,2) 渲染時間過長,實際上都是因為Diffusion擴散模型的一個內(nèi)在缺點,這就是反向去噪生成圖片的迭代過程很慢,模型在像素空間中進行計算,這會導(dǎo)致對計算時間和內(nèi)存資源的巨大需求,在生成高分辨率圖像時變得異常昂貴。

(像素空間,有點專業(yè)化的說法,實際上就是說模型直接在原始像素信息層面上做計算)

因此對于大眾應(yīng)用級的平臺產(chǎn)品,這個模型無法在用戶可以接受的生成時間里去計算挖掘更多的圖像細節(jié),即便那種草稿級別的作圖,也需要耗費Disco Diffusion以小時計算的時間。

但無論如何,Disco Diffusion給出的繪畫質(zhì)量,相對于之前的所有AI繪畫模型,都是碾壓式的超越,而且已經(jīng)是大部分普通人無法企及的作畫水平了,Stijn的挑刺只是站在人類專業(yè)創(chuàng)作的高點提出的要求。

但是,Stijn同學(xué)恐怕萬萬沒想到,他所指出的AI繪畫兩大痛點,還沒過幾個月,就被AI研究人員近乎完美的解決了!

講到這里,當(dāng)當(dāng)當(dāng)當(dāng),當(dāng)今世界最強大的AI繪畫模型 Stable Diffusion終于閃亮登場了!

Stable Diffusion今年7月開始測試,它非常好的解決了上述痛點。

實際上Stable Diffusion和之前的Diffusion擴散化模型相比,重點是做了一件事,那就是把模型的計算空間,從像素空間經(jīng)過數(shù)學(xué)變換,在盡可能保留細節(jié)信息的情況下降維到一個稱之為潛空間(Latent Space)的低維空間里,然后再進行繁重的模型訓(xùn)練和圖像生成計算。

這個”簡單”的思路轉(zhuǎn)化,帶來了多大的影響呢?

基于潛空間的Diffusion模型與像素空間Diffusion模型相比,大大降低了內(nèi)存和計算要求。比如Stable Diffusion所使用的潛空間編碼縮減因子為8,說人話就是圖像長和寬都縮減8倍,一個512×512的圖像在潛空間中直接變?yōu)?4×64,節(jié)省了8×8=64倍的內(nèi)存!

這就是Stable Diffusion之所以又快又好的原因,它能快速(以秒計算)生成一張飽含細節(jié)的512×512圖像,只需要一張消費級的8GB 2060顯卡即可!

讀者可以簡單算一下,如沒有這個空間壓縮轉(zhuǎn)換,要實現(xiàn)Stable Diffusion 這樣的秒級圖像生成體驗,則需要一張 8Gx64=512G顯存的超級顯卡。 按照顯卡硬件的發(fā)展規(guī)律來看,消費級顯卡達到這個顯存恐怕是8-10年后的事情。

而AI研究人員一個算法上的重要迭代,把10年后我們才可能享受到的AI作畫成果直接帶到了當(dāng)下所有普通用戶的電腦前!

所以目前大家對AI繪畫的進展感到吃驚是完全正常的,因為從去年到今年,AI繪畫的技術(shù)確實出現(xiàn)了連續(xù)的突破性的進展,從CLIP模型基于無需標注的海量互聯(lián)網(wǎng)圖片訓(xùn)練大成,到CLIP開源引發(fā)的AI繪畫模型嫁接熱潮,然后找到了Diffusion擴散化模型作為更好的圖像生成模塊,最后使用潛空間降維的改進方法解決了Diffusion模型時間和內(nèi)存資源消耗巨大的問題…… 這一切的一切,讓人目不暇接,可以說AI繪畫在這一年間,變化是以天計算的!

而在這個過程中,最幸福的莫過于所有AI技術(shù)愛好者和藝術(shù)創(chuàng)作者們。 大家親眼目睹著停滯了多年的AI繪畫水平以火箭般的速度沖到了頂峰。 毫無疑問,這是AI發(fā)展歷史上的一個高光時刻。

而對所有普通用戶來說,最開心的,當(dāng)然是享受到了利用Stable Diffusion或者MidJourney這樣的當(dāng)今頂級作畫AI去生成專業(yè)級別畫作的巨大樂趣。

有趣的是,Stable Diffusion的誕生還和前面提到的兩位先驅(qū)Katherine Crowson 和Ryan Murdoch 有關(guān)。 他們成為了一個去中心化組織的AI開源研發(fā)團隊EleutherAI的核心成員。 雖然自稱草根團隊,但EleutherAI在超大規(guī)模預(yù)言模型和AI圖像生成領(lǐng)域目前都已經(jīng)是開源團隊的佼佼者。

正是EleutherAI作為技術(shù)核心團隊支持了Stability.AI 這一家創(chuàng)始于英國倫敦的AI方案提供商。 這些有理想的人們聚在一起,基于以上這些最新的AI繪畫技術(shù)突破,推出了當(dāng)今最強大的AI繪畫模型 Stable Diffusion。 重要的是,Stable Diffusion按照承諾,已經(jīng)在8月完全開源! 這個重要的開源讓全世界的AI學(xué)者和AI技術(shù)愛好者感動得痛哭流涕。 Stable Diffusion一經(jīng)開源,就始終霸占著GitHub熱榜第一。

Stability.AI徹底履行了它官網(wǎng)首頁的 Slogan “AI by the people,for the people”,必須給予一個大大的贊。

下圖是作者線上運行的Stable Diffusion,感謝開源!話說這個AI生成的自帶光環(huán)的日漫小哥是相當(dāng)?shù)膸洑猓海?/p>

AI繪畫何以突飛猛進?從歷史到技術(shù)突破,一文讀懂火爆的AI繪畫發(fā)展史

四、頂級AI繪畫模型的PK:Stable Diffusion V.S MidJourney

作者在之前文章里已經(jīng)介紹了MidJourney這個在線AI作畫神器,它最大的優(yōu)點就是零門檻的交互和非常好的輸出結(jié)果。創(chuàng)作者無需任何技術(shù)背景就能利用基于Discord的MidJourney bot進行對話式繪畫創(chuàng)作(恩,當(dāng)然,全英文)

從輸出風(fēng)格上看,MidJourney非常明顯針對人像做了一些優(yōu)化,用多了后,MidJourney的風(fēng)格傾向也比較明顯(作者在MidJourney上花了數(shù)百刀的計算資源嘗試了各種主題創(chuàng)作后的第一手感受),說得好聽是比較細膩討巧,或者說,比較油膩一點點。

而Stable Diffusion的作品,就明顯的更淡雅一些,更藝術(shù)化一些。

哪種風(fēng)格更好?其實蘿卜青菜各有所愛。

因為做過針對性的優(yōu)化,如要出人像圖或者糖水風(fēng)格美圖用MidJourney更方便。 但比較了多張作品后,作者認為Stable Diffusion還是明顯技高一籌,無論從藝術(shù)表達上還是風(fēng)格變化的多樣性上。

不過,MidJourney這幾個月的迭代是有目共睹的快(畢竟是付費服務(wù),很賺錢很有動力?。由蟂table Diffusion的完全開源,預(yù)計相關(guān)技術(shù)優(yōu)勢會很快被吸收進MidJourney。 而另一方面,Stable Diffusion模型的訓(xùn)練還在持續(xù)進行中,我們可以非常期待,未來版本的Stable Diffusion模型也將百尺竿頭更進一步。

對所有的創(chuàng)作者用戶而言,這都是天大的好事。

五、AI繪畫的突破對人類意味著什么

2022年的AI領(lǐng)域,基于文本生成圖像的AI繪畫模型是風(fēng)頭無兩的主角。 從2月份的Disco Diffusion開始,4月 DALL-E 2和MidJourney邀請內(nèi)測,5月和6月Google發(fā)布兩大模型Imagen 和Parti(不開放內(nèi)測只有論文,感覺略水),然后7月底,Stable Diffusion橫空出世……

真的讓人眼花繚亂。 也勿怪作者在上篇文章里感慨,怎么稍不注意AI繪畫的水平就突飛猛進到如此地步,事實上,確實就是在這一年半載里,AI繪畫發(fā)生了革命性的,甚至可以說歷史上會留名的突破性進展。

而接下去的時間里,AI繪畫,或者更廣泛的,AI生成內(nèi)容領(lǐng)域(圖像,聲音,視頻,3D內(nèi)容等……)還會發(fā)生什么,讓人充滿了遐想和期待。

但不用等待未來,體驗了當(dāng)下以Stable Diffusion 為代表的最先進AI繪畫模型所能觸達的藝術(shù)高度,我們已經(jīng)基本可以確認,”想象力”和”創(chuàng)造力”這兩個曾經(jīng)充滿著神秘主義的詞匯,同時也是人類最后的驕傲,其實也是可以被技術(shù)解構(gòu)的。

對人類靈魂神圣至上說法的擁護者而言,當(dāng)今AI繪畫模型所展現(xiàn)的創(chuàng)造力,是一種對信仰的無情打擊。 所謂靈感,創(chuàng)造力,想象力,這些充滿著神性的詞,即將(或者已經(jīng))被超級算力+大數(shù)據(jù)+數(shù)學(xué)模型的強力組合無情打臉了。

事實上,類似Stable Diffusion這種AI生成模型的一個核心思路,或者說很多深度學(xué)習(xí)AI模型的核心思路,就是把人類創(chuàng)作的內(nèi)容,表示為某個高維或者低維數(shù)學(xué)空間里的一個向量(更簡單的理解,一串?dāng)?shù)字)。 如果這個”內(nèi)容-向量”的轉(zhuǎn)化設(shè)計足夠合理,那么人類所有的創(chuàng)作內(nèi)容都可以表示為某個數(shù)學(xué)空間里的部分向量而已。 而存在于這個無限的數(shù)學(xué)空間里的其他向量,正是那些理論上人類可能創(chuàng)造,但尚未被創(chuàng)造出來的內(nèi)容。 通過逆向的”向量-內(nèi)容”的轉(zhuǎn)換,這些還沒被創(chuàng)造的內(nèi)容就被AI挖掘出來了。

這正是目前MidJourney,Stable Diffusion這些最新AI繪畫模型所做的事情。 AI可以說是在創(chuàng)作新的內(nèi)容,也可以說是新繪畫作品的搬運工。AI產(chǎn)生的新繪畫作品在數(shù)學(xué)意義上一直客觀存在,只是被AI通過很聰明的方式,從數(shù)學(xué)空間里還原出來,而已。

“文章本天成,妙手偶得之”。

這句話放在這里非常合適。這“天”,是那個無限的數(shù)學(xué)空間;而這“手”,從人類,換成了AI。

數(shù)學(xué)真是世界至高法則:)

目前最新AI繪畫的”創(chuàng)造力”開始追趕甚至幾已比肩人類,這或許進一步打擊了人類的尊嚴,從圍棋阿法狗開始,人類在”智慧”這個點的尊嚴領(lǐng)地已經(jīng)越來越小,而AI繪畫的突破性進展則進一步把人類”想像力”和”創(chuàng)造力”的尊嚴都打碎了 — 或許還沒完全破碎,但已經(jīng)充滿裂痕搖搖欲墜。

作者一直對人類的科技發(fā)展保持某種中性看法: 盡管我們寄望于科技讓人類的生活變得更美好,但事實上正如核彈的發(fā)明,有些科學(xué)技術(shù)的出現(xiàn)是中性的,也可能是致命的。 完全取代人類的超級AI從實踐來看似乎是一件越來越可能的事情。 人類需要思考的是,在不太遠的將來,我們在所有領(lǐng)域面對AI都落荒而逃的時候,如何保持對世界的主導(dǎo)權(quán)。

有個朋友說的很對,如果AI最終學(xué)會了寫代碼 — 似乎沒有什么必然的壁壘在阻止這件事的發(fā)生 –那么電影終結(jié)者的故事或許就要發(fā)生了。 如果這樣太悲觀,那么人類至少要考慮,如何與一個超越自己所有智慧和創(chuàng)造力的AI世界相處。

當(dāng)然咯,樂觀的角度而言,未來的世界只會更美好:人類通過AR/VR接入統(tǒng)一的或者個人的元宇宙,人類主人只要動動嘴皮子,無所不能的AI助理就能根據(jù)要求自動生成內(nèi)容,甚至直接生成可供人類體驗的故事/游戲/虛擬生活。

這是一個更美好的盜夢空間,還是一個更美好的黑客帝國?(笑)

無論如何,今天我們見證的AI繪畫能力的突破和超越,正是這條不歸路的第一步:)

說個題外話作為結(jié)尾。 盡管還沒出現(xiàn),但應(yīng)該就在這兩年,我們可以直接讓AI生成一本指定風(fēng)格的完整長篇小說,特別是那些類型化的作品,比如斗破蒼穹、凡人修仙傳這樣的玄幻小說,還可以指定長度,指定女主角個數(shù),指定情節(jié)傾向性,指定悲情程度和熱血程度,甚至xx程度,AI一鍵生成

這完全不是天方夜譚,考慮到AI繪畫這一年坐火箭般的發(fā)展速度,作者甚至覺得這一天就近在眼前。

目前還沒有AI模型可以生成足夠感染力和邏輯性的長篇文學(xué)內(nèi)容,但從AI繪畫模型氣勢洶洶的發(fā)展態(tài)勢來看,不久的將來AI生成高質(zhì)量的類型文學(xué)作品幾乎已是板上釘釘?shù)氖虑?,理論上沒有任何的疑問。

這樣說或許打擊了那些辛苦碼字的網(wǎng)文作者,但作為一個技術(shù)愛好者和玄幻小說愛好者,作者對這一天的到來還是有些期待的…… 從此再也不需催更,也不需要擔(dān)心連載作者的寫作狀態(tài)了; 更美好的是,看到一半如覺得不爽,還可以隨時讓AI調(diào)整后續(xù)情節(jié)方向重新生成再繼續(xù)看……

若你還不確定這樣的一天即將到來,我們可以求同存異,一起等待。

作者:城主;來源公眾號:Web3天空之城(ID:Web3SkyCity)

原文鏈接:https://mp.weixin.qq.com/s/LsJwRMSqPXSjSyhoNgzi6w

本文由@Web3天空之城 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!