Stable Diffusion

Stable Diffusion
Instancia de	Modelo de texto a imaxe, Modelo de variável latente (pt) , diffusion model (en) e deep learning model (en)
Epónimo	diffusion model (en)
Uso	image generation (en)
Medio usado	Deep learning
Licenza	Stability AI Community License (en) e CreativeML Open RAIL-M (en)
	Versións 2.1 versión estábel (7 de decembro de 2022); 0.0.1 versión estábel (22 de xuño de 2023); 2 versión estábel ; SDXL 1.0 versión estábel (26 de xullo de 2023); 3.5 (23 de outubro de 2024); 3 (22 de febreiro de 2024) ; ;
Características
Sistema operativo	Linux, macOS e Microsoft Windows
Linguaxe de programación	Python
Datas e localizacións
Creación	22 de agosto de 2022
Contacto
Páxina WEB	stability.ai…
Repositorio	github.com…, github.com… e github.com…
	[ Wikidata ] [ C:Commons ]

Stable Diffusion é un modelo de aprendizaxe automática de texto a imaxe publicado no 2022. Desenvolvido por StabilityAI, en colaboración con EleutherAI e LAION ^[1], para xerar imaxes dixitais a partir de descricións en linguaxe natural introducidas polo usuario. O modelo tamén se pode usar para outras tarefas, como xerar traducións de imaxe a imaxe guiadas por unha solicitude de texto.^[2]

Pode funcionar na maioría do hardware de consumo equipado cunha GPU modesta e PC World aclamaba como "a próxima killer app (aplicación asasina) para o teu PC".^[3]

Licenza

A diferenza de modelos da competencia como DALL-E, Stable Diffusion fai que o seu código fonte estea dispoñible.^[4] A súa licenza prohibe certos casos de uso prexudicial.^[5]^[6] Os críticos expresaron preocupacións sobre a ética da IA, afirmando que o modelo pode usarse para crear deepfakes^[7] e tamén cuestionaron a legalidade de xerar imaxes cun modelo adestrado nun conxunto de datos que contén contido protexido por dereitos de autor sen o consentimento dos artistas orixinais.^[8]

Adestramento

Stable Diffusion adestrouse nun subconxunto do conxunto de datos LAION-Aesthetics V2.^[9] Adestrouse usando 256 GPU Nvidia A100 cun custo de 600.000 dólares.^[10]

Nos primeiros meses as imaxes dun astronauta montando un cabalo foron moi icónicas, xa que o software non entendía os prompts (enunciados) de "un cabalo montado a un astronauta", e sempre o interpretaba como a imaxe máis obvia (o astronauta montando ao cabalo).^[11]

Notas

↑ "Stable Diffusion announcement". Stability.Ai (en inglés).
↑ "Diffuse the rest". huggingface.co.
↑ "Creating-AI-art-local-pc-stable-diffusion". PCWorld.
↑ "Stable-diffusion-public-release". Stability.Ai (en inglés).
↑ "Deep-fake-video-on-agt". WashingtonPost.com (en inglés).
↑ "Stable Diffusion License". huggingface.co.
↑ "Deepfakes-for-all-uncensored-ai-art-model-prompts-ethics-questions". TechCrunch.com (en inglés).
↑ "AI art DALL-E-Midjourney-Stable-Diffusion-copyright". Kotaku.
↑ "Laion-aesthetics". Laion.ai (en inglés).
↑ "Status de TW @emostaque". Twitter (en inglés).
↑ "La NUEVA MIDJOURNEY es SUPERIOR a DALL·E 2 y Stable Diffusion - Feat. @Jaime Altozano". Consultado o 2022-11-17.

Véxase tamén

Ligazóns externas

[stable-diffusion-launch-1] "Stable Diffusion announcement". Stability.Ai (en inglés).

[2] "Diffuse the rest". huggingface.co.

[pcworld-3] "Creating-AI-art-local-pc-stable-diffusion". PCWorld.

[stability-4] "Stable-diffusion-public-release". Stability.Ai (en inglés).

[washingtonpost-5] "Deep-fake-video-on-agt". WashingtonPost.com (en inglés).

[6] "Stable Diffusion License". huggingface.co.

[techcrunch-7] "Deepfakes-for-all-uncensored-ai-art-model-prompts-ethics-questions". TechCrunch.com (en inglés).

[kotaku-8] "AI art DALL-E-Midjourney-Stable-Diffusion-copyright". Kotaku.

[9] "Laion-aesthetics". Laion.ai (en inglés).

[10] "Status de TW @emostaque". Twitter (en inglés).

[11] "La NUEVA MIDJOURNEY es SUPERIOR a DALL·E 2 y Stable Diffusion - Feat. @Jaime Altozano". Consultado o 2022-11-17.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]