Stable Diffusion 3來了!100%理解提示詞,不僅能生成文字,還涌現(xiàn)出物理能力了?
作為AI繪畫界的領(lǐng)頭羊,Stable Diffusion最近又放大招——發(fā)布了 Stable Diffusion 3 早期預(yù)覽版。但這款模型目前還沒開放測試,從目前內(nèi)部員工曬圖的效果來看,Stable Diffusion 3已經(jīng)完全可以當(dāng)做日常的作圖使用。
在文生圖領(lǐng)域,Midjourney像是玩具,而Stable Diffusion憑借穩(wěn)定、可控和高效的能力,一直是最接近可用工具的一款文生圖模型。
2024年2月22日,stability.ai發(fā)布了 Stable Diffusion 3 早期預(yù)覽版。這款模型目前還沒開放測試。
排隊鏈接:
https://stability.ai/stablediffusion3
本次更新重點:
- 在圖片質(zhì)量、多主題提示(multi-subject prompts)和單詞拼寫能力方面有大幅提升;
- 使用了新型擴(kuò)散變壓器(類似于Sora)并結(jié)合了流量匹配和其他改進(jìn);
- 模型尺寸從 800m 到 8B 參數(shù),將適用于各種設(shè)備的部署;
- 安全貫穿模型訓(xùn)練、測試、評估和部署全過程。
雖然現(xiàn)在還沒能開放測試,但一些stability.ai的員工已經(jīng)開始在社交媒體曬圖了。Sora帶了一波“好頭”。
Prompt:Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat.(一張紅色球體位于藍(lán)色立方體之上的照片。后面是一個綠色三角形,右邊是一只狗,左邊是一只貓)
Prompt:Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.(木桌上放著三個透明玻璃瓶。左邊的是紅色液體,數(shù)字是 1。中間的是藍(lán)色液體,數(shù)字是 2。右邊的是綠色液體和數(shù)字 3)
Prompt:Anime style illustration of a newsstand on top of a small grassy hill, on top of the newsstand we see the text “it’s here!”. In the background we see a big rain approaching.(一幅動漫風(fēng)格的插圖,畫的是小草山頂上的一個報刊亭,在報刊亭的頂部,我們看到 “它來了!”的文字。背景是一場大雨即將來臨。)
Prompt:A horse balancing on top of a colorful ball in a field with green grass and a mountain in the background.(在一片綠草如茵的田野上,一匹馬在一個五顏六色的球上面保持平衡,背景是一座山)
Prompt:Wide photo of a shipwreck on the beach, lots of rust and moss on the ship contrasting with the beautiful blue of the ocean water and the peace that the beauty of nature conveys. The big waves are magnificent and touch the ship.(海邊沉船的寬幅照片,船上的大量銹跡和苔蘚與海水的美麗蔚藍(lán)形成鮮明對比,大自然的美給人帶來寧靜。大浪波瀾壯闊,觸及船只。)
以上Stable Diffusion 3的圖片來自@andrekerygma和@EMostaque。SDXL和DELL-E的部分是通過他們給出的Prompt自己做的。
目前展現(xiàn)出的Stable Diffusion 3的表現(xiàn)基本上可以100%的還原提示詞。馬的那幅圖,還能看到馬踩在球上,球發(fā)生了形變。
這次更新的一個重點是單詞的拼寫能力。比如:
Prompt: Photo of an 90’s desktop computer on a work desk, on the computer screen it says “welcome”. On the wall in the background we see beautiful graffiti with the text “SD3” very large on the wall.(辦公桌上 90 年代臺式電腦的照片,電腦屏幕上寫著 “歡迎”。在背景墻上,我們看到了美麗的涂鴉,”SD3 “字樣非常醒目。)
Prompt: Resting on the kitchen table is an embroidered cloth with the text ‘good night’ and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.(灶臺上放著一塊刺繡布,上面寫著 “晚安 “和一只刺繡小老虎。布的旁邊有一支點燃的蠟燭。燈光昏暗而富有戲劇性。)
不管是屏幕上的顯像管效果,還是繡布上面的刺繡效果,雖然在提示詞中沒有給出明確的提示詞,Stable Diffusion 3也給welcome、good night這些文字使用了最合適的效果展現(xiàn),文字和畫面融合堪稱完美。
之后放出技術(shù)細(xì)節(jié)和開放測試之后,我們也會再上手測試一波,歡迎大家持續(xù)關(guān)注我們。
不過測試什么的都已經(jīng)是次要的了,從目前展現(xiàn)出的能力來看,Stable Diffusion 3已經(jīng)完全可以當(dāng)做日常的作圖使用。
作者:椰子
來源公眾號:硅星人Pro(ID:Si-Planet),硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅星人 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Pixabay,基于 CC0 協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
預(yù)約了,坐等