Ero sivun ”Kielentunnistus” versioiden välillä
[arvioimaton versio] | [arvioimaton versio] |
Poistettu sisältö Lisätty sisältö
Ei muokkausyhteenvetoa |
|||
Rivi 5:
Kirjoitetun kielen tunnistaminen perustuu useimmiten syötetekstin sisältämien [[n-grammi|''n''-grammien]] (osamerkkijonojen) frekvenssien laskemiseen. Kielentunnistusohjelmaan on etukäteen syötetty valittujen kielten ''n''-grammijakaumat, joihin syötettä verrataan. Menetelmää voidaan täydentää etsimällä tekstistä eri kielille tyypillisiä pikkusanoja: esimerkiksi sana ''och'' esiintyy usein [[ruotsin kieli|ruotsinkielisissä]] teksteissä.
Kielentunnistusohjelmat toimivat yleensä varsin hyvin, jos näyte on riittävän pitkä. Vaikeuksia niille tuottavat
==Aiheesta muualla==
|