Ero sivun ”Stemmaus” versioiden välillä

[katsottu versio][katsottu versio]
Poistettu sisältö Lisätty sisältö
Viittausvirheiden korjaus.
Metaskeema (keskustelu | muokkaukset)
p Lisätty sisäinen linkki
Rivi 140:
[[suomen kieli|Suomen kielen]] käsittelyyn tiedonhakujärjestelmissä on käytetty 1980-luvulta lähtien pääasiassa erilaisia perusmuoto- ja taivutusvartalo-ohjelmia.<ref name="kettunen.2005"/> Perinteistä, päätteiden karsintaan perustuvaa stemmausta ei sen sijaan käytännön syistä ole suosittu <ref name="kettunen.2005"/>, vaikka sitä varten on kehitetty mm. oma Snowball-algoritmi. Syyt liittyvät suomen kielen laajaan morfologiaan: [[substantiivi|substantiiveilla]] voi teoriassa olla noin 2000, [[adjektiivi|adjektiiveilla]] 6000 ja [[verbi|verbeillä]] 12 000 eri [[taivutus (kielioppi)|taivutusmuotoa]].<ref name="kettunen.2006"/> [[sanojen johtaminen|Johdoksineen]] määrät olisivat vielä moninkertaiset. Toisin kuin englannissa, suomen kielessä pelkkä taivutusmuotojen tai päätteiden karsiminen ei siten ole paras mahdollinen ratkaisu. Poistamalla esimerkiksi adjektiiveista päätteet ''-sti'' menetettäisiin substantiivit ''posti'' ja ''viesti''.<ref name="jarvelin.2002"/>
 
Käytännössä tavallisessa tekstissä sanojen taipuminen on huomattavasti vähäisempää, minkä vuoksi päätteiden automaattisella poistamisella voidaan toisinaan yltää yllättävänkin hyviin tuloksiin – joskaan ei silti perusmuoto-ohjelmien (kuten ''FINTWOL'') tasolle.<ref name="kettunen.2005"/> Stemmauksen suhteen parhaat tulokset on saatu toistaiseksi sanakirjaa hyödyntämällä. Käsitteellinen ero täysimittaista sanakirjaa käyttävään perusmuotoistamiseen eli [[perusmuotoistaminen|lemmaukseen]] alkaa kuitenkin tällöin olla häilyvä.<ref name="kettunen.2005"/>
 
Perusmuotoistamisen lisäksi toinen suomen kielen käsittelyyn paremmin soveltunut keino on ollut taivutusvartaloiden tuottaminen (inflectional stem generation).<ref name="kettunen.2005"/> Kyseessä on tavallaan lemmauksen ja stemmauksen käänteinen toiminto: ensin mainituissa vartalot tuotetaan ''reduktiivisesti'' palauttamalla taivutetut sanat perus- tai vartalomuotoonsa; taivutusvartalo-ohjelmat (esim. ''Finstems'', ''Hahmotin'') puolestaan tuottavat vartalot ''generatiivisesti'' perusmuotoisista sanoista.<ref name="kettunen.2008"/>