Page 1 of 1

Stability AI 宣布 Stable Diffusion 3:迄今為止我們所知道的

Posted: Tue Dec 03, 2024 6:31 am
by urrifat77
週OpenAI 宣布的 Sora 文字轉影片不同,該模型的新功能演示有限,但提供了一些細節。在這裡,我們探討了該公告的含義、新模型的工作原理以及對圖像生成進步的一些影響。

什麼是穩定擴散 3?
Stable Diffusion是一系列文字到圖像生成人工智慧模型。也就是說,您編寫一個提示來描述您想要看到的內容,模型會建立一個與您的描述相符的圖像。有一個網路使用者介面,可以輕鬆存取人工智慧。

與 OpenAI 的競爭對手 DALL·E 影像生成 AI 的一個主要區別是它具有「開放權重」。也就是說,提供模型計算的神經網路的詳細資訊是公開的。這意味著該模型的工作原理具有一定的透明度,研究人員可以適應並以 Stability AI 的工作為基礎。

Stable Diffusion 3 不是模型,而是一整套模型,規模從 8 億個參數到 80 億個參數不等。參數越多,輸出品質越高,但其副作用是影像成本更高,創建時間也更長。參數較少的模型版本更適合創建簡單圖像,參數較多的模型版本更適合創建更高品質或更複雜的圖像。

穩定擴散 3 是如何運作的?
Stable Diffusion 3 使用擴散變 巴林電話號碼列表 壓器架構,類似 Sora 使用的架構。穩定擴散的早期版本以及目前大多數影像生成人工智慧都使用擴散模型。用於文字產生的大型語言模型(例如 GPT)使用轉換器架構。能夠結合這兩種模型是最近的一項創新,有望充分利用兩種架構的優點。

擴散模型在小區域創建細節方面表現良好,但在生成影像的整體佈局方面表現不佳。相反,變形金剛擅長佈局,但不擅長創造細節。所以穩定擴散很可能會使用變壓器來佈局整體圖片,然後使用擴散器來產生補丁。

這意味著我們可以預期 Stable Diffusion 3 在組織複雜場景方面比其前輩表現得更好。

該公告還指出,Stable Diffusion 3 使用了一種稱為流匹配的技術。與目前的擴散路徑技術相比,這是一種計算效率更高的訓練模型並從這些模型創建圖像的方法。這意味著人工智慧的創建成本更低,使用人工智慧創建的圖像的創建成本也更低,從而降低了人工智慧的成本。

穩定擴散 3 有哪些限制?
目前圖像生成人工智慧的限制之一是生成文字的能力。值得注意的是,Stability AI 公告以包含模型名稱「Stable Diffusion 3」的圖片開始。文字中字母的位置很好,但並不完美:請注意,Stable 中「B」和「L」之間的距離比「L」和「E」之間的距離寬。同樣,Diffusion 中的兩個“F”靠得太近。不過,整體而言,這比上一代機型有了明顯的改進。

提示:史詩般的動漫藝術作品描繪了一位巫師在夜間在山頂上向黑暗的天空施放宇宙咒語,上面寫著

提示:史詩般的動漫藝術作品,描繪了一位巫師在夜間在山頂上向黑暗的天空施放宇宙咒語,上面寫著由彩色能量製成的“穩定擴散 3”

該模型的另一個問題是,由於漫射器單獨生成圖像塊,因此圖像區域之間可能會出現不一致。當嘗試生成逼真的圖像時,這主要是一個問題。公告中沒有包含很多現實的例子,但城市街道上一輛公共汽車的圖像揭示了這些問題的一些實例。請注意,公共汽車下方的陰影表明光線來自公共汽車後面,但街道上建築物的陰影表明光線來自圖像左側。同樣,影像右上角建築物中窗戶的位置在建築物的不同區域也略有不一致。巴士也沒有司機,不過透過更仔細的提示可能可以解決這個問題。

圖片1.png

如何存取穩定擴散 3?
Stable Diffusion 3 處於「早期預覽」狀態。這意味著它僅供研究人員用於測試目的。預覽狀態是為了讓 Stability AI 在模型向公眾發布之前收集有關模型性能和安全性的回饋。

您可以在此處加入訪問 AI 的等待名單。

穩定擴散 3 有哪些用例?
圖像生成人工智慧已經找到了許多用例,從插圖到圖形設計再到行銷材料。穩定擴散有望以相同的方式使用,其附加優點是它可能能夠創建具有更複雜佈局的圖像。

《穩定擴散 3》有哪些風險?
Stable Diffusion 訓練的資料集包含一些受版權保護的圖像,這導致了幾起尚未解決的訴訟。目前尚不清楚這些訴訟的結果如何,但理論上,Stable Diffusion 創作的任何圖像也可能被視為侵犯版權。

Image

我們還不知道什麼?
Stable Diffusion 3的完整技術細節尚未公佈,特別是無法測試AI的性能。一旦模型公開並建立基準,就可以確定人工智慧相對於先前的模型有多少改進。其他因素,例如生成影像的時間和成本也將變得清晰。

OpenAI 在其DALL·E 3 論文中大力支持但在 Stability AI 公告中未提及的一項技術開發是重述。這是自動提示工程的一種形式,其中使用者編寫的文本被重組並提供額外的細節,以便為模型提供更清晰的指令。目前尚不清楚《Stable Diffusion 3》是否使用了此技術。

結束語