Aihemalli

koneoppimistekniikka, jolla analysoidaan automaattisesti tekstidataa

Aihemalli[1][2][3], aihemallinnus[4][2][3] tai topiikkimalli[1][5] on koneoppimisessa ja luonnollisen kielen käsittelyssä tietynlainen tilastollinen malli tekstikokoelmassa esiintyvien abstraktien aiheiden tai ”topiikkien” löytämiseksi[2][3][5]. Aihemallinnus on paljon käytetty tekstinlouhintatyökalu, jolla etsitään piileviä semanttisia rakenteita tekstimassasta.

Yksinkertaistettu esitys aihemallinnuksesta.

Jos jokin teksti (aihemallinnuksessa puhutaan yleensä dokumenteista) koskee tiettyä aihetta, tiettyjä sanoja voi odottaa esiintyvän useammin tai harvemmin: "koira" ja "luu" esiintyvät useammin koiria koskevissa teksteissä, "kissa" ja ”miau” esiintyvät kissoja koskevissa teksteissä ja ”ei” ja ”on” esiintyvät suunnilleen yhtä paljon molemmissa. Yhdessä tekstissä käsitellään tyypillisesti useita aiheita eri suhteissa: esimerkiksi tekstissä, jossa 10 % koskee kissoja ja 90 % koiria, koirasanoja olisi luultavasti noin 9 kertaa enemmän kuin kissasanoja.

Aihemallinnustekniikoiden tuottamat ”aiheet” ovat samankaltaisten sanojen klustereita. Aihemalli tiivistää tämän ajatuksen matemaattiseen viitekehykseen, jonka avulla voidaan tutkia tekstikokoelmia ja selvittää kunkin tekstin sanajakaumien perusteella, mitä aiheita siinä mahdollisesti on ja miten aiheet ovat tekstissä jakautuneet.

Informaatioaikakaudella päivittäin kohtaamamme kirjallisen materiaalin määrä ylittää käsittelykykymme. Aihemallit voivat auttaa järjestämään ja ymmärtämään suuria tekstikokoelmia. Alun perin tekstinlouhintatyökaluksi kehitettyjä aihemalleja on käytetty rakenteiden havaitsemiseen myös muusta tiedosta, kuten geneettisestä tiedosta, kuvista ja verkoista. Niillä on myös sovelluksia muilla aloilla, kuten bioinformatiikassa[6] ja tietokonenäössä[7].

Lähteet

muokkaa
  1. a b Kieliteknologia: aihemalli (Sitaatti: ”aihemalli | topiikkimalli”) Tieteen termipankki. Viitattu 9.12.2022.
  2. a b c Nelimarkka, Matti: Aihemallinnus sekä muut ohjaamattomat koneoppimismenetelmät yhteiskuntatieteellisessä tutkimuksessa: kriittisiä havaintoja. Politiikka, 2019, 61. vsk, nro 1, s. 6–33. Valtiotieteellisen yhdistys. ISSN 0032-3365 Artikkelin verkkoversio. (PDF) Viitattu 9.12.2022.
  3. a b c Toivanen, Pihla — Huhtamäki, Jukka — Valaskivi, Katja — Tikka, Minttu: Aihemallinnus hybridin mediatapahtuman ja merkitysten kierron tutkimuksessa. Media & Viestintä, 2020. Media- ja viestintätieteellinen seura (Mevi). doi:10.23983/mv.91078 ISSN 2342-477X Artikkelin verkkoversio. Viitattu 9.12.2022.
  4. aihemallinnus YSO - Yleinen suomalainen ontologia. Finto.fi, Suomalainen asiasanasto- ja ontologiapalvelu. Viitattu 9.12.2022.
  5. a b Kyröläinen, Aki-Juhani & Laippala, Veronika: ”Luku 10 Määrällinen korpuslingvistiikka”, Kielentutkimuksen menetelmiä I-IV, s. 487–524. (Toimittanut: Milla Luodonpää-Manni et al.) Suomalaisen Kirjallisuuden Seura / Finnish Literature Society, 2020. doi:10.2307/j.ctv1qp9hgb.18 ISBN 951-858-180-0
  6. David M. Blei: Probabilistic topic models. Communications of the ACM, 2012-04, 55. vsk, nro 4, s. 77–84. doi:10.1145/2133806.2133826 ISSN 0001-0782 Artikkelin verkkoversio. (englanniksi)
  7. Cao, Liangliang and Li, Fei-Fei: Spatially coherent latent topic model for concurrent segmentation and classification of objects and scenes. 2007 IEEE 11th International Conference on Computer Vision, 2007. IEEE. (englanniksi)