Stable Diffusion
![]() Obraz wygenerowany przez Stable Diffusion 3.5 | |
Autor | Stability AI |
---|---|
Pierwsze wydanie | 22 sierpnia 2022 |
Język programowania | Python |
Licencja | Stability AI Community License |
Strona internetowa |
Stable Diffusion – generator obrazu z tekstu oparty na uczeniu głębokim. Narzędzie jest udostępnione w formie kodu źródłowego i pozwala na nie tylko generowanie obrazów z tekstu ale też naprawianie uszkodzonych obrazów[1] i rozszerzanie obrazu poza jego oryginalne granice (ang. outpainting)[2].
Kod i wagi modelu są dostępne publicznie i może działać na komputerach z co najmniej 8 GB pamięci GPU[3]. Podczas swojego opublikowania w 2022 stanowił alternatywę dla podobnych dużych modeli generowania obrazu jak DALL-E czy Midjourney, które działają na zasadzie usługi SaaS[4][5].
Stable Diffusion jest oparty na LDM , jednym z modeli dyfuzyjnych[6] opracowanych na Uniwersytecie Monachijskim[7].
Technologia
[edytuj | edytuj kod]
Stable Diffusion trenowano na parach obrazów i podpisów pobranych z LAION-5B, publicznie dostępnego zestawu danych z 5 miliardami par obraz-tekst[8].
Model trenowano przy użyciu 256 procesorów graficznych Nvidia A100 w Amazon Web Services, co łącznie zajęło 150 000 godzin pracy procesora graficznego, a koszt wyniósł 600 000 USD[9].
Przypisy
[edytuj | edytuj kod]- ↑ Javier Conde i inni, How Stable is Stable Diffusion under Recursive InPainting (RIP)?, arXiv, 27 czerwca 2024, DOI: 10.48550/arXiv.2407.09549 [dostęp 2025-04-15] .
- ↑ Fu-Yun Wang i inni, Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation, arXiv, 20 marca 2024, DOI: 10.48550/arXiv.2403.13745 [dostęp 2025-04-16] .
- ↑ CompVis/stable-diffusion, CompVis - Computer Vision and Learning LMU Munich, 15 kwietnia 2025 [dostęp 2025-04-15] .
- ↑ James Vincent , Anyone can use this AI art generator — that’s the risk [online], The Verge, 15 września 2022 [dostęp 2025-04-15] (ang.).
- ↑ The new killer app: Creating AI art will absolutely crush your PC | PCWorld [online], web.archive.org, 31 sierpnia 2022 [dostęp 2025-04-15] [zarchiwizowane z adresu 2022-08-31] .
- ↑ Michał Kalinowski , Czy, komu i w jakim zakresie przysługują prawa do wytworów generatywnej sztucznej inteligencji? Analiza prawna z perspektywy warunków użytkowania MidJourney, „PRAWO i WIĘŹ” (1 (48)), 2024, s. 259–280, DOI: 10.36128/PRIW.VI48.792, ISSN 2719-3594 [dostęp 2025-04-15] (pol.).
- ↑ Robin Rombach i inni, High-Resolution Image Synthesis With Latent Diffusion Models [online], 2022, s. 10684–10695 [dostęp 2025-04-15] (ang.).
- ↑ Andy Baio , Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online], Waxy.org, 30 sierpnia 2022 [dostęp 2025-04-15] (ang.).
- ↑ CompVis/stable-diffusion-v1-4 · Hugging Face [online], huggingface.co [dostęp 2025-04-15] .