Aihemalli

koneoppimistekniikka, jolla analysoidaan automaattisesti tekstidataa

Aihemalli[1][2][3], aihemallinnus[4][2][3] tai topiikkimalli[1][5] on koneoppimisessa ja luonnollisen kielen käsittelyssä tietynlainen tilastollinen malli tekstikokoelmassa esiintyvien abstraktien aiheiden tai ”topiikkien” löytämiseksi[2][3][5]. Aihemallinnus on paljon käytetty tekstinlouhintatyökalu, jolla etsitään piileviä semanttisia rakenteita tekstimassasta.

Yksinkertaistettu esitys aihemallinnuksesta.

Jos jokin teksti (aihemallinnuksessa puhutaan yleensä dokumenteista) koskee tiettyä aihetta, tiettyjä sanoja voi odottaa esiintyvän useammin tai harvemmin: "koira" ja "luu" esiintyvät useammin koiria koskevissa teksteissä, "kissa" ja ”miau” esiintyvät kissoja koskevissa teksteissä ja ”ei” ja ”on” esiintyvät suunnilleen yhtä paljon molemmissa. Yhdessä tekstissä käsitellään tyypillisesti useita aiheita eri suhteissa: esimerkiksi tekstissä, jossa 10 % koskee kissoja ja 90 % koiria, koirasanoja olisi luultavasti noin 9 kertaa enemmän kuin kissasanoja.

Aihemallinnustekniikoiden tuottamat ”aiheet” ovat samankaltaisten sanojen klustereita. Aihemalli tiivistää tämän ajatuksen matemaattiseen viitekehykseen, jonka avulla voidaan tutkia tekstikokoelmia ja selvittää kunkin tekstin sanajakaumien perusteella, mitä aiheita siinä mahdollisesti on ja miten aiheet ovat tekstissä jakautuneet.

Informaatioaikakaudella päivittäin kohtaamamme kirjallisen materiaalin määrä ylittää käsittelykykymme. Aihemallit voivat auttaa järjestämään ja ymmärtämään suuria tekstikokoelmia. Alun perin tekstinlouhintatyökaluksi kehitettyjä aihemalleja on käytetty rakenteiden havaitsemiseen myös muusta tiedosta, kuten geneettisestä tiedosta, kuvista ja verkoista. Niillä on myös sovelluksia muilla aloilla, kuten bioinformatiikassa[6] ja tietokonenäössä[7].

Lähteet muokkaa

  1. a b Kieliteknologia: aihemalli (Sitaatti: ”aihemalli | topiikkimalli”) Tieteen termipankki. Viitattu 9.12.2022.
  2. a b c Nelimarkka, Matti: Aihemallinnus sekä muut ohjaamattomat koneoppimismenetelmät yhteiskuntatieteellisessä tutkimuksessa: kriittisiä havaintoja. Politiikka, 2019, 61. vsk, nro 1, s. 6–33. Valtiotieteellisen yhdistys. ISSN 0032-3365. Artikkelin verkkoversio (PDF). Viitattu 9.12.2022.
  3. a b c Toivanen, Pihla — Huhtamäki, Jukka — Valaskivi, Katja — Tikka, Minttu: Aihemallinnus hybridin mediatapahtuman ja merkitysten kierron tutkimuksessa.. Media & Viestintä, 2020. Media- ja viestintätieteellinen seura (Mevi). doi:10.23983/mv.91078. ISSN 2342-477X. Artikkelin verkkoversio. Viitattu 9.12.2022.
  4. aihemallinnus YSO - Yleinen suomalainen ontologia. Finto.fi, Suomalainen asiasanasto- ja ontologiapalvelu. Viitattu 9.12.2022.
  5. a b Kyröläinen, Aki-Juhani & Laippala, Veronika: ”Luku 10 Määrällinen korpuslingvistiikka”, Kielentutkimuksen menetelmiä I-IV, s. 487–524. Toimittanut: Milla Luodonpää-Manni et al.. Suomalaisen Kirjallisuuden Seura / Finnish Literature Society, 2020. ISBN 951-858-180-0. doi:10.2307/j.ctv1qp9hgb.18.
  6. David M. Blei: Probabilistic topic models. Communications of the ACM, 2012-04, 55. vsk, nro 4, s. 77–84. doi:10.1145/2133806.2133826. ISSN 0001-0782. Artikkelin verkkoversio. (englanniksi)
  7. Cao, Liangliang and Li, Fei-Fei: Spatially coherent latent topic model for concurrent segmentation and classification of objects and scenes. 2007 IEEE 11th International Conference on Computer Vision, 2007. IEEE. (englanniksi)