Kielentunnistus

Kieliteknologiassa kielentunnistus tarkoittaa tekstin tai puheen kielen automaattista tunnistamista näytteen perusteella. Myös puhujan tai kirjoittajan murteen, yhteiskunnallisen aseman tai äidinkielen päättelemisen voidaan katsoa kuuluvan kielentunnistukseen. Kielentunnistusta on käytetty esimerkiksi tekstinkäsittely- ja tiedonhakuohjelmissa sekä puheentunnistussovelluksissa.

Kirjoitetun kielen tunnistaminenMuokkaa

Kirjoitetun kielen tunnistaminen perustuu useimmiten näytetekstin sisältämien n-grammien (osamerkkijonojen) frekvenssien laskemiseen. Kielentunnistusohjelmaan on etukäteen syötetty tunnistettavien kielten tyypilliset n-grammijakaumat, joihin näytteen jakaumaa verrataan. Menetelmää voidaan täydentää etsimällä tekstistä eri kielille tyypillisiä pikkusanoja: esimerkiksi sana och esiintyy usein ruotsinkielisissä teksteissä.

Kielentunnistusohjelmat toimivat yleensä varsin hyvin, jos näyte on riittävän pitkä. Vaikeuksia niille tuottavat läheiset sukukielet (esimerkiksi tanska ja kirjanorja) ja paljon vieraskielisiä erisnimiä sisältävät tekstit.

Aiheesta muuallaMuokkaa

Tämä kieliin tai kielitieteeseen liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.