Stable Diffusion on syväoppimiseen perustuva tekoälyohjelmisto, joka tuottaa kuvia tekstimuotoisesta kuvauksesta. Ohjelmisto julkaistiin syyskuussa 2022.

Stable Diffusion
Kehityshistoria
Ensijulkaisu syyskuu 2022
Vakaa versio 2.1[1] / 7. joulukuuta 2022
Tiedot
Ohjelmistotyyppi tekoälyohjelma
Alusta selain
Ohjelmointikielet Python[2]
Lisenssi CreativeML Open RAIL-M (käännä suomeksi)
Aiheesta muualla
Verkkosivusto

Ohjelmiston on kehittänyt Münchenin yliopiston CompVis-tutkimusryhmä professori Björn Ommerin johdolla.[3] SD:n jatkokehitysversio on kesäkuussa 2023 julkaistu SDXL, joka on yhteensopiva vanhemman version työkalujen kanssa.[4] 21. marraskuuta 2023 julkaistiin Stable Video Diffusion, joka voi luoda lyhyitä videoita kuvista.[5]

Muista vastaavista tekoälyohjelmistoista Stable Diffusion eroaa siten, että se ei vaadi supertietokonetta ja on ilmaiseksi ladattavissa ja käytettävissä kotikoneella. Ohjelmiston käyttämä tekoälymalli on koulutettu miljardeilla kuvilla ymmärtämään esim. miltä auto näyttää tai miltä tietty taidetyyli näyttää. Malli on julkaistu CreativeML Open RAIL-M -lisenssillä käytettäväksi.[3] Toisista ohjelmistoista Stable Diffusion eroaa myös siten että siitä ei ole sensuroitu sopimattomia termejä, alastomuutta tai julkisuuden henkilöiden kuvia.

Stable Diffusion on ollut myöhemmin laajan käyttäjien jatkokehityksen kohteena. Ohjelmistoon on lisäosia, kuten VAE:t (Variable Auto Encoder), joka on malli, joka parantaa kuvan laatua tekoälypohjaisella jälkikäsittelyllä.[6] Alkuperäinen SD käytti yleisesti vae-ft-mse-840000-ema-pruned-VAE:a korjaamaan kuvissa olleita ongelmia ("vertavuotavat silmät").[7] LoRA:t (Low-Rank Adaptation of Large Language Models) ovat puolestaan täsmäkoulutettuja malleja, joita voidaan käyttää SD:n varsinaisen ison mallin päällä. Jos käyttäjä haluaisi esimerkiksi laadukkaita kuvia Pokémoneista, voidaan malli täsmäkouluttaa pokémonien kuvilla tarvitsematta luoda kokonaista mallia.[8] Lisämalleja erityisiin tarkoituksiin jaetaan esimerkiksi civitai.com-sivustolla.

Ohjelmiston käyttö vaatii 10 Gt näyttömuistia ja CUDA-laskentaa tukevan näytönohjaimen, mitä käytännössä tarkoittaa Nvidia RTX -sarjan näytönohjaimia.[9] Ohjelmiston julkaisuaikaan tällainen laitteisto maksaa reilusti alle 2000 euroa.

Ohjelmistolle on myös tehty asennuspaketteja (kuten Easy Diffusion), jolla sen saa asennettua kotikoneelle yhdestä paketista muutaman kymmenen gigatavun latauksella. Paketti myös päivittää itsensä käynnistettäessä. Ohjelmistolle on myös tehty web-selaimessa toimivia käyttöliittymiä kuten ComfyUI ja AUTOMATIC1111 (ja AUTOMATIC1111:n forkkauksina mm. Anapnoe UX[10] ja Vladmandic[11]).

Toiminta muokkaa

Diffuusiomalli perustuu yksinkertaistaen siihen, että koulutuskuvaan lisätään Gaussin kohinaa, kunnes kuva on kokonaisuudessaan kohinaa. Nyt mallin avulla ajetaan tämä prosessi takaperin, ja tekoäly luo yksityiskohtia, joita olisi alkuperäisessä kuvassa. Näin satunnaista kohinaa käytetään siemenenä uusien kuvien luomiseen.[12] Diffuusiomalli on perimmiltään parametrisoitu Markovin ketju.[13]

Stable Diffusion on koulutettu LAIONin (Large-scale Artificial Intelligence Open Network) keräämällä datasetillä, jonka Common Crawl -projekti on kerännyt internetistä. LAIONin tietokanta sisältää viisi miljardia kuvaa tekstimuotoisine kuvauksineen.[14]

Mallin koulutetukseen käytettiin alun perin 256 kappaletta NVidia A100 -GPU:ta Amazonin pilvessä. Tämä vei 150 000 tuntia koneaikaa, jonka kustannus 600 000 US-dollaria.[15][16] Projektia sponsoroi Lontoossa ja Palo Altossa toimiva startup Stability AI.[17] Mallin luominen on ongelmallista kotikäyttäjille, sillä se vaatii 30 Gt muistia, jota ei ole kotikäyttöön myytävissä näytönohjaimissa.[18] Omia malleja on silti tehty, kuten 4chanin waifu-diffusion, joka on optimoitu anime-tyylisille kuville.[19]

Alun perin malli koulutettiin 512×512-resoluution kuvilla, mikä rajoittaa luotavien kuvien laatua. 2.0-julkaisu pystyy tuottamaan natiivisti myös 768×768-kokoisia kuvia. Tämä versio sisältää myös upscale-filtterin, joka skaalaa kuvia suurempaan kokoon jopa 2048x2048-resoluutioon.[20]

Esimerkkejä muokkaa

Katso myös muokkaa

Lähteet muokkaa

  1. Stable Diffusion v2.1 and DreamStudio Updates 7-Dec 22 Stability AI. 7.12.2022. Viitattu 4.5.2023. (englanniksi)
  2. How to Run Stable Diffusion Locally to Generate Images News, Tutorials, AI Research. 23.8.2022. Viitattu 4.5.2023. (englanniksi)
  3. a b Revolutionizing image generation by AI: Turning text into images www.lmu.de. Viitattu 8.1.2023. (englanniksi)
  4. https://stability.ai/blog/stable-diffusion-sdxl-1-announcement
  5. https://stability.ai/news/stable-video-diffusion-open-ai-video-model
  6. https://rentry.org/sdvae
  7. https://github.com/easydiffusion/easydiffusion/wiki/VAE-Variational-Auto-Encoder
  8. https://huggingface.co/blog/lora
  9. Stable Diffusion github.com. 27.6.2023. Viitattu 27.6.2023. (englanniksi)
  10. https://github.com/anapnoe/stable-diffusion-webui-ux
  11. https://github.com/vladmandic/automatic
  12. Generating images with Stable Diffusion Paperspace Blog. 24.8.2022. Viitattu 8.1.2023. (englanniksi)
  13. Denoising Diffusion Probabilistic Models (.pdf) arxiv.org. (englanniksi)
  14. Andy Baio: Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator Waxy.org. 30.8.2022. Viitattu 8.1.2023. (englanniksi)
  15. https://twitter.com/emostaque/status/1563870674111832066 Twitter.
  16. CompVis/stable-diffusion-v1-4 · Hugging Face huggingface.co.
  17. Kyle Wiggers: A startup wants to democratize the tech behind DALL-E 2, consequences be damned TechCrunch. 12.8.2022. (englanniksi)
  18. Anthony Mercurio: Waifu Diffusion github.com. 4.5.2023.
  19. Anthony Mercurio: Waifu Diffusion github.com. 4.5.2023.
  20. Stable Diffusion 2.0 Release Stability AI. Viitattu 8.1.2023. (englanniksi)

Aiheesta muualla muokkaa