Kuvageneraattorit ovat koneoppimismalleja, jotka luovat kuvia tekstipohjaisiin kuvauksiin perustuen. Tällaisia malleja alettiin kehittää 2010-luvun puolivälissä syvien neuroverkkojen edistysaskelten ansiosta, ja vuoteen 2022 mennessä huippuluokan malleilla, kuten OpenAI:n DALL-E 2:lla, Google Brainin Imagenilla ja StabilityAI:n Stable Diffusionilla, pystyttiin tuottamaan lähes valokuvanlaatuisia kuvia.

Dall-E 2 -kuvageneraattorin tuottama kuva tekstisyötteellä "Juhannus explosion"

Kuvageneraattorimallit koostuvat yleensä kielimallista, joka muuttaa syötetekstin latentiksi esitykseksi, ja generatiivisesta kuvamallista, joka luo kuvan tähän esitykseen perustuen. Ne koulutetaan valtavilla määrillä kuvia ja tekstiä, jotka yleensä kerätään internetistä.[1]

Historia muokkaa

Ensimmäinen moderni kuvageneraattorimalli, alignDRAW, esiteltiin vuonna 2015.[2] Myöhemmät mallit, kuten VQGAN+CLIP, XMC-GAN, GauGAN2, DALL-E ja DALL-E 2, paransivat kuvan laatua ja realistisuutta. Teksti-videoksi-alustat, kuten Runway[3] ja Make-A-Video[4], kehittyivät teksti-kuvaksi -mallien jatkokehityksenä.

Teknologia muokkaa

Kuvageneraattorimallit käyttävät erilaisia arkkitehtuureja, ja transformer-mallit ovat yleistyneet tekstin koodaamiseen, kun taas ehdolliset generatiiviset adversariaaliset verkot tai diffuusiomallit ovat suosittuja kuvien generointiin. Mallit koulutetaan suurilla kuvatekstiparien aineistoilla, kuten LAION-5B, COCO, Oxford-120 Flowers ja CUB-200 Birds. Kuvageneraattorien mallien arviointiin sisältyy niiden kuvan laadun, monimuotoisuuden ja semanttisen yhteneväisyyden syötetekstin kanssa arviointi. Arvioinnissa käytetään metriikoita, kuten Inception-pisteitä (IS) ja Fréchet Inception -etäisyyttä.[5]

Käyttötarkoitukset muokkaa

Kuvageneraattorimalleilla on erilaisia käyttökohteita, kuten taide, muotoilu, prototyyppien luominen ja taiteellisen tuotannon saavutettavuuden lisääminen. Ne muodostavat myös osan laajemmasta keinotekoisen median suuntauksesta, jonka odotetaan vaikuttavan liiketoimintaan tulevina vuosina.[6]

Käyttö muokkaa

Useimmat kuvageneraattorit toimivat pilvipalvelussa. Kuvien sisältöä määrittävä teksti syötetään palveluun selaimella tai Midjourneyn tapauksessa Discord-sovelluksella. Sitten pilvipalvelu generoi kuvan ja näyttää sen hetken kuluttua selaimessa.[7]

Luettelo kuvageneraattoreista muokkaa

Videogeneraattorit muokkaa

Google on kehittänyt videogeneraattoria nimeltä Lumiere.[12] Samansuuntaisesta kehitystyöstä ovat kertoneet myös Meta[13][14], Runway-yhtiö[15] ja OpenAI[16].

Katso myös muokkaa

Lähteet muokkaa

  1. James Vincent: All these images were generated by Google’s latest text-to-image AI The Verge. 24.5.2022. Viitattu 28.3.2023. (englanniksi)
  2. Elman Mansimov, Emilio Parisotto, Jimmy Lei Ba, Ruslan Salakhutdinov: Generating Images from Captions with Attention. arXiv:1511.02793 [cs], 29.2.2016. Artikkelin verkkoversio.
  3. Benj Edwards: Runway teases AI-powered text-to-video editing using written prompts Ars Technica. 9.9.2022. Viitattu 28.3.2023. (englanniksi)
  4. Ashish kumar: Meta AI Introduces 'Make-A-Video': An Artificial Intelligence System That Generates Videos From Text MarkTechPost. 3.10.2022. Viitattu 28.3.2023. (englanniksi)
  5. Stanislav Frolov, Tobias Hinz, Federico Raue, Jörn Hees, Andreas Dengel: Adversarial text-to-image synthesis: A review. Neural Networks, 1.12.2021, 144. vsk, s. 187–209. doi:10.1016/j.neunet.2021.07.019. ISSN 0893-6080. Artikkelin verkkoversio. en
  6. Mike Elgan: How ‘synthetic media’ will transform business forever Computerworld. 1.11.2022. Viitattu 28.3.2023. (englanniksi)
  7. a b c Kaj Laaksonen: Vertailussa tekoälyn avustamat kuvageneraattorit: mikä on paras? Mikrobitti. 15.1.2024. Viitattu 15.1.2024.
  8. Microsoft just renamed Bing Image Creator, and gave Copilot Pro users extra perks ZDNET. Viitattu 6.3.2024. (englanniksi)
  9. Kaj Laaksonen: Kuvageneraattorit testissä: Bing Image Creator sopii ensikertalaiselle Mikrobitti. 14.12.2023. Viitattu 15.12.2023.
  10. Uuno Turhapuro kirjoittamassa USA:n itsenäisyysjulistusta ja avokado-nojatuoli – asiantuntija pitää DALL·E -tekoälyä merkkipaaluna Yle Uutiset. 15.7.2022. Viitattu 15.12.2023.
  11. Petri Ranta: Uusi kuvia luova tekoäly saapui areenalle – jälki puhuu puolestaan Mikrobitti. 5.3.2024. Viitattu 5.3.2024.
  12. Emilia David: Google’s Lumiere brings AI video closer to real than unreal The Verge. 27.1.2024. Viitattu 28.2.2024. (englanniksi)
  13. James Vincent: Meta’s new text-to-video AI generator is like DALL-E for video The Verge. 29.9.2022. Viitattu 28.2.2024. (englanniksi)
  14. Jess Weatherbed: Meta teases new AI-powered editing tools for Facebook and Instagram The Verge. 16.11.2023. Viitattu 28.2.2024. (englanniksi)
  15. James Vincent: Text-to-video AI inches closer as startup Runway announces new model The Verge. 20.3.2023. Viitattu 28.2.2024. (englanniksi)
  16. Emma Roth: OpenAI introduces Sora, its text-to-video AI model The Verge. 15.2.2024. Viitattu 28.2.2024. (englanniksi)