Stable Diffusion

Stable Diffusion
	; Obraz wygenerowany przez Stable Diffusion 3.5
Autor	Stability AI
Pierwsze wydanie	22 sierpnia 2022
Język programowania	Python
Licencja	Stability AI Community License
	Strona internetowa

Stable Diffusion – generator obrazu z tekstu oparty na uczeniu głębokim. Narzędzie jest udostępnione w formie kodu źródłowego i pozwala na nie tylko generowanie obrazów z tekstu ale też naprawianie uszkodzonych obrazów^[1] i rozszerzanie obrazu poza jego oryginalne granice (ang. outpainting)^[2].

Kod i wagi modelu są dostępne publicznie i może działać na komputerach z co najmniej 8 GB pamięci GPU^[3]. Podczas swojego opublikowania w 2022 stanowił alternatywę dla podobnych dużych modeli generowania obrazu jak DALL-E czy Midjourney, które działają na zasadzie usługi SaaS^[4]^[5].

Stable Diffusion jest oparty na LDM(inne języki), jednym z modeli dyfuzyjnych^[6] opracowanych na Uniwersytecie Monachijskim^[7].

Technologia

Stable Diffusion trenowano na parach obrazów i podpisów pobranych z LAION-5B, publicznie dostępnego zestawu danych z 5 miliardami par obraz-tekst^[8].

Model trenowano przy użyciu 256 procesorów graficznych Nvidia A100 w Amazon Web Services, co łącznie zajęło 150 000 godzin pracy procesora graficznego, a koszt wyniósł 600 000 USD^[9].

Przypisy

↑ JavierJ. Conde JavierJ. i inni, How Stable is Stable Diffusion under Recursive InPainting (RIP)?, arXiv, 27 czerwca 2024, DOI: 10.48550/arXiv.2407.09549 [dostęp 2025-04-15] .
↑ Fu-YunF.Y. Wang Fu-YunF.Y. i inni, Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation, arXiv, 20 marca 2024, DOI: 10.48550/arXiv.2403.13745 [dostęp 2025-04-16] .
↑ CompVis/stable-diffusion, CompVis - Computer Vision and Learning LMU Munich, 15 kwietnia 2025 [dostęp 2025-04-15] .
↑ JamesJ. Vincent JamesJ., Anyone can use this AI art generator — that’s the risk [online], The Verge, 15 września 2022 [dostęp 2025-04-15] (ang.).
↑ The new killer app: Creating AI art will absolutely crush your PC | PCWorld [online], web.archive.org, 31 sierpnia 2022 [dostęp 2025-04-15] [zarchiwizowane z adresu 2022-08-31] .
↑ MichałM. Kalinowski MichałM., Czy, komu i w jakim zakresie przysługują prawa do wytworów generatywnej sztucznej inteligencji? Analiza prawna z perspektywy warunków użytkowania MidJourney, „PRAWO i WIĘŹ” (1 (48)), 2024, s. 259–280, DOI: 10.36128/PRIW.VI48.792, ISSN 2719-3594 [dostęp 2025-04-15] (pol.).
↑ RobinR. Rombach RobinR., AndreasA. Blattmann AndreasA., DominikD. Lorenz DominikD., PatrickP. Esser PatrickP., BjörnB. Ommer BjörnB., High-Resolution Image Synthesis With Latent Diffusion Models [online], 2022, s. 10684–10695 [dostęp 2025-04-15] (ang.).
↑ AndyA. Baio AndyA., Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online], Waxy.org, 30 sierpnia 2022 [dostęp 2025-04-15] (ang.).
↑ CompVis/stable-diffusion-v1-4 · Hugging Face [online], huggingface.co [dostęp 2025-04-15] .

[1] JavierJ. Conde JavierJ. i inni, How Stable is Stable Diffusion under Recursive InPainting (RIP)?, arXiv, 27 czerwca 2024, DOI: 10.48550/arXiv.2407.09549 [dostęp 2025-04-15] .

[2] Fu-YunF.Y. Wang Fu-YunF.Y. i inni, Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation, arXiv, 20 marca 2024, DOI: 10.48550/arXiv.2403.13745 [dostęp 2025-04-16] .

[3] CompVis/stable-diffusion, CompVis - Computer Vision and Learning LMU Munich, 15 kwietnia 2025 [dostęp 2025-04-15] .

[4] JamesJ. Vincent JamesJ., Anyone can use this AI art generator — that’s the risk [online], The Verge, 15 września 2022 [dostęp 2025-04-15] (ang.).

[5] The new killer app: Creating AI art will absolutely crush your PC | PCWorld [online], web.archive.org, 31 sierpnia 2022 [dostęp 2025-04-15] [zarchiwizowane z adresu 2022-08-31] .

[6] MichałM. Kalinowski MichałM., Czy, komu i w jakim zakresie przysługują prawa do wytworów generatywnej sztucznej inteligencji? Analiza prawna z perspektywy warunków użytkowania MidJourney, „PRAWO i WIĘŹ” (1 (48)), 2024, s. 259–280, DOI: 10.36128/PRIW.VI48.792, ISSN 2719-3594 [dostęp 2025-04-15] (pol.).

[7] RobinR. Rombach RobinR., AndreasA. Blattmann AndreasA., DominikD. Lorenz DominikD., PatrickP. Esser PatrickP., BjörnB. Ommer BjörnB., High-Resolution Image Synthesis With Latent Diffusion Models [online], 2022, s. 10684–10695 [dostęp 2025-04-15] (ang.).

[8] AndyA. Baio AndyA., Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online], Waxy.org, 30 sierpnia 2022 [dostęp 2025-04-15] (ang.).

[9] CompVis/stable-diffusion-v1-4 · Hugging Face [online], huggingface.co [dostęp 2025-04-15] .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]