Ero sivun ”Kielentunnistus” versioiden välillä

[arvioimaton versio][arvioimaton versio]
Poistettu sisältö Lisätty sisältö
Ei muokkausyhteenvetoa
Rivi 5:
Kirjoitetun kielen tunnistaminen perustuu useimmiten syötetekstin sisältämien [[n-grammi|''n''-grammien]] (osamerkkijonojen) frekvenssien laskemiseen. Kielentunnistusohjelmaan on etukäteen syötetty valittujen kielten ''n''-grammijakaumat, joihin syötettä verrataan. Menetelmää voidaan täydentää etsimällä tekstistä eri kielille tyypillisiä pikkusanoja: esimerkiksi sana ''och'' esiintyy usein [[ruotsin kieli|ruotsinkielisissä]] teksteissä.
 
Kielentunnistusohjelmat toimivat yleensä varsin hyvin, jos näyte on riittävän pitkä. Vaikeuksia niille tuottavat toisiaanläheiset muistuttavat kieletsukukielet (esimerkiksi [[tanskan kieli|tanska]] ja [[norjan kieli|kirjanorja]]) ja paljon vieraskielisiä erisnimiä sisältävät tekstit.
 
==Aiheesta muualla==