DALL-E

kuvia tekevä tekoälyohjelma

DALL-E (tyylitelty DALL·E) on OpenAI:n kehittämä tekoälypohjaisten kuvageneraattorimallien perhe, joka luo kuvia tekstimuotoisista kuvauksista.

Dall-E
Kuvankaappaus DALL-E 2-käyttöliittymästä
Kuvankaappaus DALL-E 2-käyttöliittymästä
Luoja OpenAI
Kehityshistoria
Ensijulkaisu 5. tammikuuta 2021
Vakaa versio 10. elokuuta 2023
Tiedot
Alusta selain
Aiheesta muualla
Verkkosivusto

DALL-E käyttää 12 miljardin parametrin versiota GPT-3 Transformer -mallista tulkitsemaan luonnollisen kielen syötteitä (kuten "viisikulmion muotoinen vihreä nahkakukkaro" tai "isometrinen näkymä surullisesta kapybarasta") ja tuottamaan niitä vastaavat kuvat. Se voi luoda kuvia realistisista esineistä ("lasimaalauksinen ikkuna, jossa on kuva sinisestä mansikasta") sekä esineistä, joita ei ole todellisuudessa olemassa ("kuutio, jossa on piikkisian tekstuuri"). Nimi on portmanteau sanoista WALL-E ja Salvador Dalí.

Monet neuroverkot ovat 2000-luvulta lähtien pystyneet tuottamaan melko realistisia kuvia. DALL-E pystyy kuitenkin tuottamaan niitä luonnollisista kielikehotuksista, joita se "ymmärtää [...] ja epäonnistuu harvoin vakavasti".kenen mukaan?

OpenAI ei ole julkaissut lähdekoodia kummallekaan mallille.

MIT Technology Review -lehden mukaan yksi OpenAI:n tavoitteista oli "antaa kielimalleille parempi käsitys jokapäiväisistä käsitteistä, joita ihmiset käyttävät asioiden ymmärtämiseen".

Historia muokkaa

OpenAI paljasti DALL-E:n 5. tammikuuta 2021.[1]

Huhtikuussa 2022 OpenAI julkisti DALL-E 2:n kertoen, että se pystyy tuottamaan fotorealistisia kuvia tekstimuotoisista kuvauksista sekä editorin, joka mahdollistaa yksinkertaiset muutokset tuotokseen. Ilmoituksen mukaan ohjelmisto oli vielä tutkimusvaiheessa, ja käyttöoikeus oli rajoitettu ennalta valituille beta-käyttäjille. Malli voi edelleen tehdä vakavia virheitä, myös sellaisia, joita kukaan ihminen ei tekisi. DALL-E 2:ta kuvailtiin mallina, joka "voi luoda alkuperäisiä, realistisia kuvia ja taidetta tekstikuvauksesta. Se voi yhdistää käsitteitä, attribuutteja ja tyylejä".

20. heinäkuuta 2022 DALL-E 2 julkaistiin beta-vaiheeseen, ja kutsuja lähetettiin miljoonalle odotuslistalla olevalle henkilölle.[2] Käyttäjät pystyivät luoda tietyn määrän kuvia ilmaiseksi joka kuukausi ja halutessaan ostaa lisää generaatioita. Aluksi pääsy oli rajattu vain ennakkoon valituille käyttäjille tutkimusvaiheen ajaksi eettisiin ja turvallisuussyihin liittyen. 28. syyskuuta 2022 DALL-E 2 julkaistiin suurelle yleisölle ja odotuslistavaatimus poistettiin.[3]

DALL-E 3 julkaistiin 20. elokuuta 2023.[4]

CLIP muokkaa

DALL-E kehitettiin ja julkistettiin yleisölle yhdessä CLIP:n (Contrastive Language-Image Pre-training) kanssa. CLIP on erillinen malli, jonka tehtävänä on "ymmärtää ja luokitella" tuotos. CLIP kuratoi DALL-E:n tuottamat kuvat, ja CLIP esittää korkealaatuisimmat kuvat kutakin kehotusta varten.[5]

Arkkitehtuuri muokkaa

Generative Pre-trained Transformer (GPT) -mallia kehitettiin alun perin OpenAI:ssa vuonna 2018 Transformer-arkkitehtuuria käyttäen.[6] Ensimmäinen iteraatio, GPT, skaalattiin GPT-2:n tuottamiseksi vuonna 2019;[7] vuonna 2020 se skaalattiin jälleen GPT-3:n tuottamiseksi, jossa on 175 miljardia parametria.[1]

DALL-E:n malli on GPT-3:n multimodaalinen toteutus, jossa on 12 miljardia parametria[8] ja joka "vaihtaa tekstiä pikseleihin" ja joka on koulutettu Internetistä saatujen teksti- ja kuvaparien avulla. Se käyttää nollakohtaista oppimista luodakseen tuotoksen kuvauksesta ja vihjeestä ilman lisäkoulutusta.[9]

DALL-E tuottaa useita kuvia vastauksena kehotuksiin. CLIP ymmärtää nämä kuvat ja asettaa ne paremmuusjärjestykseen. CLIP on koulutettu yli 400 miljoonalla kuva- ja tekstiparilla.[1] CLIP on kuvantunnistusjärjestelmä, joka on koulutettu Internetistä poimituilla kuvilla ja kuvauksilla, ei kuitenkaan merkityistä kuvista koostuvalla kuratoidulla tietokokonaisuudella (kuten ImageNet). CLIP yhdistää kuvat ja kuvatekstit toisiinsa. CLIP koulutettiin ennustamaan, mikä kuvateksti (32 768 mahdollisen kuvatekstin "satunnaisvalikoimasta") sopi parhaiten kuvaan, minkä ansiosta se pystyi myöhemmin tunnistamaan kohteita kuvissa, jotka eivät kuuluneet sen koulutusjoukkoon.[10]

Suorituskyky muokkaa

DALL-E pystyy tuottamaan kuvia eri tyyleillä, fotorealistisista kuvista maalauksiin ja emojeihin. Se voi myös "manipuloida ja järjestää uudelleen" kuvissa olevia esineitä.[1] Yksi luojien havaitsema kyky oli muotoiluelementtien oikea sijoittaminen uusiin sommitelmiin ilman nimenomaista ohjeistusta: "Kun DALL-E:tä esimerkiksi pyydetään piirtämään daikon-retikka, joka niistää nenäänsä, siemailee lattea tai ajaa yksipyöräisellä, se piirtää usein nenäliinan, kädet ja jalat uskottaviin paikkoihin."[11]

Vaikka DALL-E:llä oli monenlaisia taitoja ja kykyjä, julkisessa esittelyssä suurin osa uutisoinnista keskittyi pieneen osajoukkoon "surrealistisia" tai "omituisia" tuotoskuvia. Inputin, NBC:n, Naturen ja muiden julkaisujen jutuissa mainittiin DALL-E:n tulostama "kuvitus daikon-retikka-vauvasta tutussa, joka kävelee koiran kanssa". Sen tuotos "avokadon muotoinen nojatuoli" mainittiin samalla tavalla. Sitä vastoin DALL-E:n havaittiin kehittävän tahattomasti visuaalisia päättelytaitoja, jotka riittävät ratkaisemaan Ravenin matriiseja (visuaalisia testejä, joita usein tehdään ihmisille älykkyyden mittaamiseksi).[12]

Tästä huolimatta DALL-E:tä kuvailtiin "huomattavan kestäväksi tällaisten muutosten suhteen" ja luotettavaksi tuottamaan kuvia monenlaisille mielivaltaisille kuvauksille. CNBC:n toimittaja Sam Shead kutsui kuvia "omituisiksi" ja siteerasi Cambridgen yliopiston koneoppimisen professori Neil Lawrencea, joka kuvaili sitä "inspiroivaksi osoitukseksi näiden mallien kyvystä tallentaa tietoa maailmastamme ja yleistää sitä tavoilla, joita ihmiset pitävät hyvin luonnollisina". Shead siteerasi myös Georgia Tech School of Interactive Computingin apulaisprofessoria Mark Riedliä, joka totesi, että DALL-E:n demonstraation tulokset osoittivat, että se kykeni "yhdistämään käsitteitä johdonmukaisesti", mikä on keskeinen osa ihmisen luovuutta, ja että "DALL-E:n demonstraatio on merkittävä, sillä se tuottaa kuvituksia, jotka ovat paljon johdonmukaisempia kuin muut Text2Image-järjestelmät, joita olen nähnyt viime vuosina". BBC siteerasi Riedlia myös sanomalla, että hän oli "vaikuttunut siitä, mihin järjestelmä pystyy".

Myös DALL-E:n kykyä "täyttää aukkoja" ja päätellä sopivia yksityiskohtia ilman erityisiä kehotuksia on kehuttu. ExtremeTech huomautti, että kehotus piirtää pingviini, jolla on joulupusero, tuotti kuvia pingviineistä, joilla ei myöskään ollut villapaitoja, mutta myös aiheeseen liittyviä joulupukin hattuja, ja Engadget huomautti, että sopivasti sijoitetut varjot näkyivät tulosteessa, kun kehotettiin piirtämään "maalaus, jossa kettu istuu pellolla talvella". Lisäksi DALL-E ymmärtää laajasti visuaalisia ja muotoilutrendejä; ExtremeTechin mukaan "DALL-E:ltä voi pyytää kuvaa puhelimesta tai pölynimurista tietyllä ajanjaksolla, ja se ymmärtää, miten nämä esineet ovat muuttuneet". Engadget totesi myös sen epätavallisen kyvyn "ymmärtää, miten puhelimet ja muut esineet muuttuvat ajan myötä". DALL-E:n on kuvattu yhdessä muiden "kapean tekoälyn", kuten AlphaGon, AlphaFoldin ja GPT-3:n kanssa "herättävän kiinnostusta siihen, voidaanko keinotekoinen yleinen älykkyys saavuttaa ja miten".

Vaikutukset muokkaa

OpenAI väitti, että se aikoi "analysoida yhteiskunnalliset vaikutukset" ja "mahdolliset vääristymät" ennen kuin se vapauttaa DALL-E:n yleiseen käyttöön. Aikaisemmat mallit olivat alttiita väärinkäytölle, koska niitä vastaan ei pystytty puolustautumaan.

DALL-E enteilee "uuden tekoälyparadigman eli multimodaalisen tekoälyn alkua", jossa järjestelmät kykenisivät yhdistelemään tietoja useista eri tietotyypeistä ja kääntämään tietoja eri tietotyyppien välillä. Lisäksi DALL-E on mainittu esimerkkinä ohjelmistosta, joka osoittaa luovuutta.

DALL-E 2:n ja muiden vastaavien tekoälyjen pelätään aiheuttavan taiteilijoiden, valokuvaajien ja graafisten suunnittelijoiden teknologista työttömyyttä.[13]

Kilpailijoita ja vaihtoehtoja muokkaa

Katso myös muokkaa

Lähteet muokkaa

  1. a b c d OpenAI debuts DALL-E for generating images from text VentureBeat. 5.1.2021. Viitattu 10.4.2023. (englanniksi)
  2. DALL·E now available in beta openai.com. Viitattu 28.3.2023. (englanniksi)
  3. DALL·E now available without waitlist openai.com. Viitattu 28.3.2023. (englanniksi)
  4. DALL-E 3: Release date, features, pricing, and more Android Authority. 19.10.2023. Viitattu 19.2.2024. (englanniksi)
  5. This avocado armchair could be the future of AI MIT Technology Review. Viitattu 15.4.2023. (englanniksi)
  6. Improving Language Understanding by Generative Pre-Training (.pdf) cdn.openai.com. Viitattu 15.4.2023. (englanniksi)
  7. Language models are unsupervised multitask learners (.pdf) cdn.openai.com. Viitattu 15.4.2023. (englanniksi)
  8. OpenAI debuts DALL-E for generating images from text venturebeat.com. Viitattu 15.8.2023. (englanniksi)
  9. OpenAI debuts DALL-E for generating images from text technologyreview.com. 5.1.2021. Viitattu 15.8.2023. (englanniksi)
  10. Devin Coldewey: OpenAI's DALL-E creates plausible images of literally anything you ask it to TechCrunch. 5.1.2021. Viitattu 15.4.2023. (englanniksi)
  11. Thom Dunn: This AI neural network transforms text captions into art, like a jellyfish Pikachu Boing Boing. 10.2.2021. Viitattu 15.4.2023. (englanniksi)
  12. Dale Markowitz: Here’s how OpenAI’s magical DALL-E image generator works TNW | Deep-Tech. 10.1.2021. Viitattu 15.4.2023. (englanniksi)
  13. Will OpenAI’s DALL-E 2 kill creative careers? VentureBeat. 26.7.2022. Viitattu 15.4.2023. (englanniksi)
  14. Uuno Turhapuro kirjoittamassa USA:n itsenäisyysjulistusta ja avokado-nojatuoli – asiantuntija pitää DALL·E -tekoälyä merkkipaaluna Yle Uutiset. 15.7.2022. Viitattu 12.1.2023.
  15. Samuli Leppälä: Pelottavan taitavaa Dall-E-kuvageneraattoria voi käyttää nyt kuka tahansa – näin otat käyttöön Mikrobitti.
 
Käännös suomeksi
Tämä artikkeli tai sen osa on käännetty tai siihen on haettu tietoja muunkielisen Wikipedian artikkelista.
Alkuperäinen artikkeli: en:DALL-E