Tämä artikkeli käsittelee tekoälyohjelmien käyttöä mm. kuva- ja tekstituotannossa. Suomenkielisen Wikipedian sisäisessä kielenkäytössä kielimalline (muodollisemmin kielisymbolimalline) tarkoittaa lähdeviitteessä olevaa parametria, joka osoittaa käytetyn kielen esimerkiksi (saksaksi) ja (baskiksi).
n · k · m

»Kielimallit ovat luotettavuudeltaan, ymmärtämiseltään ja aihealueiltaan rajallisia, minkä vuoksi ne tarvitsevat ihmisvalvontaa.»
(Michael Osborne, Koneoppimisen professori Insinööritieteiden laitoksella, Oxfordin yliopisto, 25.1.2023[1])

Kielimallit ovat luonnollisen kielen käsittelyyn tarkoitettuja tietokoneohjelmia, jotka käyttävät keinotekoisia neuroverkkoja tekstin tuottamiseen. Kielimallit mahdollistavat monenlaisia sovelluksia, kuten tekoälychatbotit ja tekoälyhakukoneet. Niitä käytetään yhä useampiin ominaisuuksiin yleisissä sovelluksissa, kuten tekstinkäsittelyohjelmissa ja taulukkolaskentaohjelmissa. Tässä tekstissä termit ”kielimalli” ja ”kielimallituotos” viittaavat kaikkiin tällaisiin ohjelmiin ja sovelluksiin sekä niiden tuotoksiin.

Kielimallit ovat oikein käytettynä hyödyllisiä apuvälineitä, mutta muokkaajien on oltava myös perillä niihin liittyvistä rajoituksista. Kielimalleilla tuotettu sisältö voi usein olla suoranaista sepitystä, johon liittyy täysin keksittyjä lähdeviittauksia. Sen tuottamaa tekstiä ei ole tarkistettu, ja teksti on verrattavissa uuteen tutkimukseen. Se voi olla myös puolueellista, herjata eläviä ihmisiä ja rikkoa tekijänoikeuksia. Siksi on välttämätöntä, että muokkaajat tarkistavat kielimallien tuottaman tekstin niistä riippumattomista lähteistä, ennen tekstin lisäämistä Wikipedian artikkeleihin. Kielimallivälineitä ei saa käyttää omissa muokkauksissaan, ellei muokkaaja itse ole täysin tietoinen näistä riskeistä. Kielimalleja ei saa käyttää tehtäviin, joihin muokkaajalla ei ole huomattavaa perehtyneisyyttä. Niiden tuotokset on tarkastettava huolellisesti kaikkien sovellettavien käytäntöjen noudattamiseksi. Muokkaaja on täysin vastuussa kaikista muokkauksistaan eli myös niistä, jotka on tehty kielimallien avulla.

Perusohjeet muokkaa

  1. Älä julkaise Wikipediaan kielimallien luomaa alkuperäissisältöä tai viitteitä. Vaikka tällainen sisältö olisi voimakkaasti muokattu, etsi muita vaihtoehtoja, jotka eivät käytä koneen luomaa sisältöä.
  2. Kielimallit ovat apuohjelmia, jotka antavat neuvoja kirjoittamiseen. Ne voivat esittää vaihtoehtoisia sanoja, muokata kappaleita tai tarkistaa tekstin tasoa. Kielimallien neuvot eivät ole aina totta tai luotettavia. Sinun pitää itse arvioida ja valita, noudatatko niitä vai et.
  3. Voit käyttää kielimalleja tekstinkorjaukseen, tiivistämiseen ja uudelleenmuotoiluun, mutta huomaa, että ne eivät välttämättä havaitse kielioppivirheitä oikein tai säilytä oleellista tietoa. Ole huolellinen ja muokkaa vastausta riittävästi. Voit myös pyytää kielimallia korjaamaan puutteitaan, kuten puuttuvaa tietoa yhteenvedossa tai epäensyklopedistista, esimerkiksi mainosmaista sävyä.
  4. Sinun tulee varmistaa, että kielimallien käyttö ei aiheuta häiriötä Wikipediassa.
  5. Kielimallien luomat teokset eivät ole luotettavia lähteitä. Älä hyödynnä lähteitä, jotka eivät ole luotettavia ja tarkastettuja. Varmista, että artikkeleissa esiintyy ainoastaan totuudenmukaisia tietoja.
  6. Muokkausyhteenvedossa on ilmoitettava, että kielimallia on käytetty.[a]
  7. Wikipediaa ei käytetä koelaboratoriona kielimalleille. Wikipedian käyttäminen kokeiluihin tai testauksiin on kiellettyä.

Riskit ja asiaan liittyvät käytännöt muokkaa

Tekijänoikeusrikkomukset muokkaa

Asiaan liittyvä käytäntö: Wikipedia:Tekijänoikeudet
Vihje: Jos haluat tuoda tekstiä, jonka olet löytänyt muualta tai jonka olet kirjoittanut yhdessä muiden kanssa (myös kielimallien kanssa), voit tehdä sen vain, jos se on saatavilla ehdoilla, jotka ovat yhteensopivia CC BY-SA-lisenssin kanssa.

Kielimalli voi tuottaa tekijänoikeuksia loukkaavaa materiaalia.[b] Tuotettuun tekstiin voi sisältyä sanatarkkaa ei-vapaata sisältöä, tai se voi olla johdannaisteos eli perustua tekijänoikeuksin suojattuun materiaaliin. Lisäksi kielimallien käyttäminen tekijänoikeudella suojatun sisällön (kuten uutisartikkelit) tiivistämiseen voi johtaa tekstiin, jossa alkuperäistä materiaalia on vain vähän uudelleenmuotoiltu. Vuonna 2023 ovat myös edelleen avoinna ne kysymykset, jotka koskevat kielimallien kouluttamista tekijänoikeudella suojatulla materiaalilla[c]. Esimerkiksi kysymykseen siitä, onko kielimalleilla tuotettu sisältö tekijänoikeuksien alaista vai ei, suhtaudutaan eri maissa eri tavoilla[2]. Niiden tuotokset eivät siis välttämättä ole yhteensopivia Wikipediassa käytettävien CC BY-SA- ja GNU (GFDL) -lisenssien kanssa.

Alkuperäistutkimus ja ”hallusinaatiot” muokkaa

Asiaan liittyvä käytäntö: Wikipedia:Ei uutta tutkimusta
Vinkki: Wikipedia-artikkelit eivät saa sisältää alkuperäistutkimusta eli tosiseikkoja, väitteitä ja ideoita, joille ei ole olemassa luotettavia, julkaistuja lähteitä. Sama koskee myös julkaistun materiaalin analysointia tai synteesiä, joka johtaa tai vihjaa lähteissä esittämättömiin johtopäätöksiin. Osoittaaksesi, että alkuperäistutkimusta ei ole käytetty, sinun on voitava viitata luotettaviin, julkaistuihin lähteisiin. Lähteiden on liityttävä suoraan aiheeseen, ja niiden on tuettava esitettyjä väitteitä.

Vaikka kielimallit saattavat antaa tarkkoja vastauksia joihinkin kysymyksiin, ne saattavat myös tuottaa vinoutuneita tai virheellisiä vastauksia, joskus hienovaraisesti, joskus vähemmän hienovaraisesti. Esimerkiksi jos pyydetään kirjoittamaan artikkeli lasinsirujen syönnin eduista, kielimalli saattaa joskus tehdä niin. Tämä voi olla vaarallista, siksi kielimalleja Wikipedia-sisällön kirjoittamisessa apunaan käyttävien muokkaajien tulee olla erityisen tarkkoina, jotta tällaisten kielimallien tuottamien alkuperäistutkimusten lisääminen tietosanakirjaan vältettäisiin.

Kielimallit ovat kaavan täydentämisen ohjelmia: ne tuottavat tekstiä valitsemalla todennäköisimmät sanat edellisten perään. Ne oppivat nämä kaavat koulutusaineistostaan, joka sisältää monenlaista sisältöä internetistä ja muualta, kuten kaunokirjallisuutta, salaliittoteorioita, propagandaa jne. Sen vuoksi kielimallit voivat sepittää asioita, joita pidetään myös alkuperäistutkimuksena ja hallusinaatioina.

Käytettäessä kielimallia harvinaisiin aiheisiin, monimutkaisiin kysymyksiin tai tehtäviin, joihin ne eivät sovellu (eli tehtäviin, jotka vaativat laajaa tietämystä tai analyysiä), virheiden esiintyminen on paljon todennäköisempää. Koska kielimallit vastaavat itsevarmasti, niiden virheet vaikuttavat helposti hyväksyttäviltä tosiasioilta ja uskottavilta mielipiteiltä.

Kielimallien käytöstä on myös riski ajautumisesta tietynlaiseen lähdesilmukkaan.Tämä johtuu siitä, että kielimallien itsensä yhtenä koulutusaineistona muun datan ohella on usein erikieliset Wikipediat itsessään. Koska kielimallit itse käyttävät lähteenä Wikipediaa, niin tämän takia niiden tuottama aineisto on ainakin osittain myös Wikipediasta peräisin. Tässä tilanteessa ajaudutaan ei-toivottuun lähdesilmukkaan, jossa Wikipediaa itsessään käytetään lähteenä artikkelien kirjoittamiselle.

Lähteetön tai tarkistamaton sisältö muokkaa

Asiaan liittyvä käytäntö: Wikipedia:Tarkistettavuus
Vinkki: Lukijoiden tulee voida tarkistaa, että Wikipedian artikkeleissa oleva tieto ei ole pelkkää sepitettä. Se tarkoittaa, että kaiken materiaalin on oltava jäljitettävissä luotettaviin, julkaistuihin lähteisiin. Lisäksi lainaukset ja kaikki materiaali, joka voidaan kyseenalaistaa tai joka todennäköisesti voidaan kyseenalaistaa, on tuettava tekstissä olevilla viittauksilla.

Kielimallit eivät noudata Wikipedian käytäntöjä tarkistettavuudesta ja luotettavista lähteistä. Kielimallit jättävät joskus viittaukset kokonaan pois tai viittaavat lähteisiin, jotka eivät täytä Wikipedian luotettavuusstandardeja (mukaan lukien Wikipediaan viittaaminen lähteenä). Joissakin tapauksissa ne jopa hallusinoivat olemattomia viitteitä sepittämällä otsikoita, tekijöitä ja URL-osoitteita.

Kielimalleilla hallusinoitu sisältö, kuten edellä selitettiin, rikkoo myös tarkistettavuuden käytäntöä, koska sitä ei voida todentaa, koska se on sepitettyä: viitteitä ei ole löydettävissä.

Algoritminen vinouma ja puolueellinen näkökulma muokkaa

Asiaan liittyvä käytäntö: Wikipedia:Neutraali näkökulma
Vinkki: Artikkeleiden ei tule ottaa kantaa, vaan niiden tulee selittää eri näkökulmat, reilusti ja ilman muokkaajaan liittyvää vinoumaa. Tämä koskee sekä sitä, mitä sanot, että sitä, miten sen sanot.

Kielimallit voivat tuottaa sisältöä, joka on näennäisesti neutraalia sävyltään mutta ei välttämättä sisällöltään. Huoli korostuu erityisesti eläviä henkilöitä koskevissa artikkeleissa.

Vapaaehtoistyön menetys muokkaa

Asiaan liittyvä käytäntö: Wikipedia:Botit

Wikipedia nojaa vapaaehtoistyöhön uuden sisällön tarkistamisessa. Keskeistä tässä työssä ja sen ylläpidossa on, että ihmismuokkaajat ovat käyttäneet aikaa ja nähneet vaivaa sisällön luomiseen. Sallimalla suuria määriä tekoälyn tuottamaa sisältöä heikennettäisiin tätä seikkaa ja sen positiivisia vaikutuksia vapaaehtoistyön saamiseksi. Osa tekoälyjen luomista mainosartikkeleista on vaatinut monen tunnin työpanostusta vapaaehtoisilta niiden siivoamiseksi. Tämä voi kuormittaa ja lannistaa vapaaehtoisia.

Käyttöohjeet muokkaa

Erityisosaamista vaaditaan muokkaa

Kielimallit ovat avustavia työkaluja, eivätkä ne voi korvata inhimillistä harkintaa. Tarkka harkinta on tarpeen, jotta voidaan määrittää, sopivatko tällaiset työkalut annettuun tarkoitukseen. Kielimalleja käyttävien muokkaajien odotetaan perehtyvän tietyn kielimallin sisäänrakennettuihin rajoituksiin ja silloin muokkaajat voivat kielimallitietämyksellään kiertää niiden rajoitukset. Lisäksi heidän muokkaustensa on oltava sopusoinnussa asiaan liittyvien ohjeiden ja käytäntöjen kanssa. Tätä varten muokkaajien ennen kielimallin käyttöä olisi hankittava huomattavaa kokemusta samasta tai edistyneemmästä tehtävästä ilman kielimallin apua.[d] Kokemusta edellytetään paitsi Wikipedian toimintatavoista, myös kielimallien oikeasta käytöstä. Tämä koskee esimerkiksi sitä, miten muotoillaan hyviä kehotteita.

Jotkut muokkaajat ovat päteviä tekemään omatoimisia muokkauksia mutta tekevät toistuvasti epäasianmukaisia kielimalliavusteisia muokkauksia, vaikka he yrittäisivät vilpittömästi osallistua. Tällaisia muokkaajia pidetään tässä mielessä epäpätevinä. He saattavat olla tietämättömiä riskeistä ja luontaisista rajoituksista tai olla tietoisia niistä, mutta eivät pääse niiden yläpuolelle varmistaakseen käytäntöjen noudattamisen. Tällaisessa tapauksessa muokkaaja voidaan estää käyttämästä tällaisia (eli hän voi tehdä muokkauksia vain ilman kielimalleja). Tämä on tietyn tyyppinen rajoitettu kielto. Vaihtoehtoisesti tai lisäksi he voivat olla osittain estettyjä: tietyltä nimiavaruudelta tai nimiavaruuksilta.

Ilmoittaminen muokkausyhteenvedossa muokkaa

Jokainen muokkaus, joka sisältää kielimallitulosteen on merkittävä kielimalliavusteiseksi[e]. Se tehdään ilmoittamalla muokkausyhteenvedossa tekoälyn nimi ja mahdollisuuksien mukaan versio. Tämä koskee kaikkia nimiavaruuksia.
Esimerkki muokkausyhteenvedosta: Laajennettu artikkelia lähteineen. Apuna käytetty ChatGPT 4.0:aa.

Wikipedian sisäisten asioiden muokkauksissa (esimerkiksi keskustelujen yhteenvedoissa) on myös hyvä kertoa, miten kielimallia on käytetty. Alla on kuvitteellinen esimerkki siitä, miten tekoälyn luomiin kommenttien yhteenvetoihin voidaan sisällyttää alaviitteitä, jotka selventävät, millaisia kehotteita tekoälylle on annettu sen luodessa yhteenvetoa. Tämä menetelmä tarjoaa avoimuutta siitä, miten tekoälyä on hyödynnetty keskustelun analysoinnissa[f].

Kahvihuoneen keskustelunaiheena oli Wikipedian käytäntö koskien artikkelien kuvitusmateriaalin valintaa. Keskustelun ytimessä oli kysymys, pitäisikö suosia historiallisesti tarkkoja kuvituksia vai antaa tilaa myös taiteelliselle tulkinnalle. Monet osallistujat pohtivat, onko olemassa perusteltua syytä rajoittaa kuvamateriaalin luovuutta, etenkin kun kyse on historiallisten tapahtumien tai henkilöiden esittämisestä.

Osallistujien näkemykset jakaantuivat seuraavasti:

  • Muutoksen puolesta puhui 2 henkilöä, Taivaltaja ja Merenneito, jotka näkivät taiteellisen vapauden tuovan lisäarvoa Wikipedian artikkeleihin.
  • Muutosta vastaan oli 8 henkilöä, Aikakirja, Historioitsija, Kronikko, Arkistonvartija, Tieteenrakastaja, Faktojenetsijä, Ajanhenki ja Muinaistarinoija, jotka korostivat tarkkuuden ja historiallisen uskollisuuden merkitystä tiedonlähteenä.
  • Neutraalin kannan otti: 1 henkilö, Viisastenkivi, joka vaati parempia perusteluja muutokselle.
  • Sivustakatsojina oli: 3 henkilöä, Aikajana, Kartanpiirtäjä ja Kirjastonhoitaja, jotka eivät halunneet asettua selkeästi kummallekaan puolelle mutta seurasivat keskustelua mielenkiinnolla.

Yhteenveto: Kahvihuoneen keskustelussa 2 henkilöä kannatti kuvitusmateriaalin taiteellisen vapauden lisäämistä, 8 vastusti tätä muutosta painottaen historiallisen tarkkuuden tärkeyttä, ja 4 henkilöä ei ottanut suoraa kantaa asiaan. Keskustelun perusteella vaikuttaa siltä, että enemmistö osallistujista suosii nykyisen käytännön säilyttämistä, jossa korostetaan tarkkuutta ja faktapohjaisuutta kuvitusmateriaalin valinnassa.[chatgpt 1][chatgpt 2][chatgpt 3]

Viitteet
  1. ChatGPT malli GPT-4 syötteenään: Tee suomeksi yhteenveto seuraavan keskustelun tuloksesta: + koko keskustelun sisältö wikitekstinä lainausmerkkien sisällä
  2. ChatGPT malli GPT-4 syötteenään: kuinka monta kannatti ja kuinka moni vastusti muutosta seuraavassa keskustelussa? + koko keskustelun sisältö wikitekstinä lainausmerkkien sisällä
  3. ChatGPT jätti MattiMeikäläisen, MaijaMeikäläisen ja Medelsvenssonin huomioimatta luvuissa.

Artikkelien kirjoittaminen muokkaa

Kielimalleja voidaan käyttää olemassa olevan tekstin tarkistamiseen tai laajentamiseen sekä ideoiden luomiseen uusille tai jo olemassa oleville artikkeleille. Artikkelin jokaisen muutoksen on noudatettava kaikkia sovellettavia sääntöjä ja ohjeita. Tämä tarkoittaa, että kielimallin käyttäjän on tutustuttava asiaan liittyviin lähteisiin kyseisen sisällön osalta ja sitten arvioitava huolellisesti tuotetun tekstin tarkistettavuus. Tähän kuuluu myös puolueettomuus, alkuperäistutkimuksen puuttuminen sekä tekijänoikeuksien ja kaikkien muiden sovellettavien käytäntöjen ja ohjeiden noudattaminen. Tekijänoikeuksien noudattaminen sisältää kaikkien lähteiden tekijänoikeuslisenssien kunnioittamisen. Neutraalin näkökulman varmistamiseksi epäolennaisille yksityiskohdille tai vähemmistönäkökulmille ei saa antaa kohtuutonta painoarvoa. On varmistettava, että viitatut lähteet ovat todenperäisiä, luotettavia, asiaan liittyviä ja soveltuvia lähteitä, ja on tarkistettava tekstin ja lähteen yhteys.

Artikkelien luonnostelu ennen julkaisua muokkaa

Kielimalliavusteisen sisällön lisääminen olemassa olevaan artikkeliin voi muuttaa artikkelia merkittävästi, joskus sekavaksi. Siksi ennen kielimallituotannon lisäämistä kannattaa tallentaa artikkeli luonnokseksi. Näin voit verrata kielimallin tuottamaa sisältöä alkuperäiseen ja tehdä tarvittavat muokkaukset ja parannukset ennen artikkeliin julkaisemista.

Epäilyttävän kielimallisisällön käsittely muokkaa

Kaikki epäillyt kielimallien tuottamat tulosteet tulee käydä läpi tarkkuuden varmistamiseksi, ja niitä oletetaan väärennetyiksi, kunnes toisin todistetaan. Kielimallit voivat väärentää lähteitä, kuten kirjoja, lehtiartikkeleita ja verkkolinkkejä, joten varmista ensin, että viitatut teokset todella ovat olemassa. Kaikki faktatiedot on sitten tarkistettava toimitetuista lähteistä. Kiistanalainen tai vahvistamaton kielimallista peräisin oleva sisältö tulee poistaa.

Jos yllä kuvatunlainen poisto johtaisi koko artikkelin tai luonnoksen sisällön poistamiseen, sitä voidaan ehdottaa poistettavaksi.[g] Jos koko sivu näyttää olevan faktuaalisesti virheellinen tai perustuu väärennettyihin lähteisiin, pikapoisto Y3 (Vandalismi) voi olla sopiva.

Huomautukset muokkaa

  1. Ohjetta tukee se, että AutoWikiBrowserin ja HotCatin kaltaiset muokkausohjelmat jättävät muokkauksiin merkinnän käytetystä ohjelmasta. Nämä muokkausyhteenvetojen merkinnät ovat ”using AWB” ja "HotCat-työkalulla”.
  2. Tämä pätee myös tapauksiin, joissa tekoälymalli on lainkäyttöalueella, jossa pelkästään tekoälyllä luodut teokset eivät ole tekijänoikeudellisesti suojattuja.
  3. Tilanne muuttunee jatkuvasti, kun lainsäädäntö eri maissa muuttuu ajan mittaan.
  4. Esimerkiksi henkilön, joka on taitava vandalismin käsittelyssä mutta tekee vain vähän artikkelityötä, ei luultavasti tulisi aloittaa artikkelien luomista kielimallien avulla. Sen sijaan hänen olisi ensin hankittava todellista kokemusta artikkelien luomisesta ilman kielimallin apua. Sama logiikka pätee myös muihin alueisiin, kuten moduulien ja mallineiden luomiseen.
  5. Muokkausyhteenvetovaatimuksen voi tarvittaessa poistaa tulevilla keskusteluilla mm. Kahvihuoneessa asiasta keskustelemalla.
  6. Tämä menettelytapa on omaksuttu Wikipedian Kahvihuoneen keskustelusta: Löytyykö tälle määräykselle älyllistä perustetta (keskustelu päättyi noin 21.3.2023). Tämä on kuvitteellinen esimerkki havainnollistamaan asiaa.
  7. Jos artikkelin otsikko viittaa aiheeseen, joka voi olla hyödyllinen, artikkelin tiivistäminen tai ohjaaminen muualle voi olla järkevää. Samoin uusista aiheista tehdyt luonnokset voivat olla hyödyllisiä, vaikka ne olisivat vain lyhyitä määritelmiä. Tällaisten luonnosten tekijöille tulee antaa tarvittavat ilmoitukset tai varoitukset. Kun epäiltyä kielimallilla luotua sisältöä käsitellään, suositellaan voimakkaasti sitä, että ne muokkaajat, jotka ovat joko osallistuneet sisällön luomiseen, eivät yrittäisi vastustaa sisällön poistoa kumoamalla sitä ilman ennakkokeskustelua. Kun harkitaan poistamista, muokkaajien tulee olla tietoisia tekijänoikeus- ja muiden tärkeiden kysymysten vaikutuksista.

Lähteet muokkaa

  1. Smith, Adam: What is ChatGPT? And will it steal our jobs? (Otsikko suomeksi: Mikä on ChatGPT? Ja viekö se työpaikkamme?) Context. 25.1.2023. Thomson Reuters Foundation. Arkistoitu 15.3.2023. Viitattu 24.8.2023. (englanniksi)
  2. Growcoot, Matt: Japan Declares AI Training Data Fair Game and ‘Will Not Enforce Copyright’ (Otsikko suomeksi: Japani julistaa tekoälyn koulutusdatan reiluksi peliksi eikä 'valvo tekijänoikeuksia') PetaPixel. 5.6.2023. Arkistoitu 26.10.2023. Viitattu 26.10.2023. (englanniksi)

Aiheesta muualla muokkaa