Przejdź do zawartości

Stable Diffusion

Z Wikipedii, wolnej encyklopedii
Stable Diffusion
Ilustracja
Obraz wygenerowany przez Stable Diffusion 3.5
Autor Stability AI
Pierwsze wydanie 22 sierpnia 2022
Język programowania Python
Licencja Stability AI Community License
Strona internetowa

Stable Diffusion – generator obrazu z tekstu oparty na uczeniu głębokim. Narzędzie jest udostępnione w formie kodu źródłowego i pozwala na nie tylko generowanie obrazów z tekstu ale też naprawianie uszkodzonych obrazów[1] i rozszerzanie obrazu poza jego oryginalne granice (ang. outpainting)[2].

Kod i wagi modelu są dostępne publicznie i może działać na komputerach z co najmniej 8 GB pamięci GPU[3]. Podczas swojego opublikowania w 2022 stanowił alternatywę dla podobnych dużych modeli generowania obrazu jak DALL-E czy Midjourney, które działają na zasadzie usługi SaaS[4][5].

Stable Diffusion jest oparty na LDM(inne języki), jednym z modeli dyfuzyjnych[6] opracowanych na Uniwersytecie Monachijskim[7].

Technologia

[edytuj | edytuj kod]
Proces odszumiania używany przez Stable Diffusion. Model generuje obrazy przez odszumianie.

Stable Diffusion trenowano na parach obrazów i podpisów pobranych z LAION-5B, publicznie dostępnego zestawu danych z 5 miliardami par obraz-tekst[8].

Model trenowano przy użyciu 256 procesorów graficznych Nvidia A100 w Amazon Web Services, co łącznie zajęło 150 000 godzin pracy procesora graficznego, a koszt wyniósł 600 000 USD[9].

Przypisy

[edytuj | edytuj kod]
  1. Javier Conde i inni, How Stable is Stable Diffusion under Recursive InPainting (RIP)?, arXiv, 27 czerwca 2024, DOI10.48550/arXiv.2407.09549 [dostęp 2025-04-15].
  2. Fu-Yun Wang i inni, Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation, arXiv, 20 marca 2024, DOI10.48550/arXiv.2403.13745 [dostęp 2025-04-16].
  3. CompVis/stable-diffusion, CompVis - Computer Vision and Learning LMU Munich, 15 kwietnia 2025 [dostęp 2025-04-15].
  4. James Vincent, Anyone can use this AI art generator — that’s the risk [online], The Verge, 15 września 2022 [dostęp 2025-04-15] (ang.).
  5. The new killer app: Creating AI art will absolutely crush your PC | PCWorld [online], web.archive.org, 31 sierpnia 2022 [dostęp 2025-04-15] [zarchiwizowane z adresu 2022-08-31].
  6. Michał Kalinowski, Czy, komu i w jakim zakresie przysługują prawa do wytworów generatywnej sztucznej inteligencji? Analiza prawna z perspektywy warunków użytkowania MidJourney, „PRAWO i WIĘŹ” (1 (48)), 2024, s. 259–280, DOI10.36128/PRIW.VI48.792, ISSN 2719-3594 [dostęp 2025-04-15] (pol.).
  7. Robin Rombach i inni, High-Resolution Image Synthesis With Latent Diffusion Models [online], 2022, s. 10684–10695 [dostęp 2025-04-15] (ang.).
  8. Andy Baio, Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online], Waxy.org, 30 sierpnia 2022 [dostęp 2025-04-15] (ang.).
  9. CompVis/stable-diffusion-v1-4 · Hugging Face [online], huggingface.co [dostęp 2025-04-15].