Kieliteknologia
ihmisen kieliin kohdistuva teknologia
Kieliteknologia on ihmisten kieleen kohdistuvaa tai sitä hyväksikäyttävää teknologiaa. Nimitystä tietokonelingvistiikka on käytetty kieliteknologian keskeisistä teorioista ja menetelmistä, joilla kieltä voidaan tunnistaa, tuottaa ja jäsentää. Kieliteknologia on varsin monitieteistä liittyen muun muassa tietojenkäsittelytieteeseen ja yleiseen kielitieteeseen. Vuosina 1902–2001 Suomessa tehtiin kaksi kieliteknologian alaan kuuluvaa väitöskirjaa, molemmat vuosina 1992–2001.[1]
Kieliteknologian sovellusalueita
muokkaaKieliteknologia kehittää ja soveltaa tietokonelingvistiikan menetelmiä useille sovellusaloille, joita ovat muun muassa:
- dokumenttien ja tekstimuotoisen tiedon hallinta, tiedonhaku, tekstien automaattinen indeksointi, tekstin automaattinen tiivistäminen ja dokumenttien luokittelu
- erilaiset kirjoittajan apuvälineinä toimivat tietokoneohjelmat kuten oikeinkirjoituksen tarkistus, kieliopin tarkistus, automaattinen tavutus ja synonyymisanastot
- erilaiset kieliteknologiaan perustuvat kielen kääntämisen apuvälineet sekä automaattiset kielenkääntöohjelmat ja terminologiset työkalut
- puhesynteesi ja automaattinen puheentunnistus
- luonnollisen kielen käyttö tietokoneen käyttöliittymissä ja luonnolliskielisessä vuorovaikutuksessa ihmisen ja tietokoneen välillä
- tietokoneavusteinen kielen oppiminen (CALL)[2]
- sanakirjojen ja oppimateriaalien laatiminen ja toimittaminen sekä tekstin luettavuuden arviointi ja parantaminen.
Kieliteknologian menetelmiä ja osa-alueita
muokkaa- Automaattinen muoto-opillinen analyysi (muoto-opillinen jäsentäminen) eli perusmuodon ja kieliopillisen taivutusmuodon tunnistaminen mukaan lukien ennalta tuntemattomien sanojen kohdalla perusmuodon ja muodon arvaaminen[3]
- Morfologinen generointi (automaattinen taivuttaminen)
- Automaattinen lauseopillinen analyysi (lauseopillinen jäsentäminen)
- Luonnollisen kielen ilmausten generointi (koneen laskeman vastauksen muuttaminen ihmisten kielelle)
- Dialogin eli keskustelun mallintaminen ja hallinta (mitä koneen tulisi kussakin tilanteessa pyrkiä sanomaan)
- Kielivirheiden tunnistaminen ja korjausehdotusten tuottaminen
- Saneiden alamerkitysten automaattinen tunnistaminen tekstissä (esimerkiksi milloin laskea tarkoittaa aritmetiikkaa, milloin liukumista, päästämistä ja niin edelleen)
- Anaforan ratkaiseminen (Eli mihin aiempaan kohteeseen tekstin pronomini tai lyhyempi ilmaus viittaa.)
- Termeiksi katsottavien ilmausten automaattinen päätteleminen tekstistä (so. kirjan takana olevan asiahakemiston automaattinen tuottaminen)
- Puheentunnistuksessa puheen erottaminen tauoista, äänteitä kuvaavien piirteiden eristäminen signaalista (FFT, Cepstr, ja niin edelleen), todennäköisimpien sanojen tunnistaminen tilastollisilla menetelmillä (kuten HMM)
- Puhesynteesissä äännemallit (esimerkiksi difonit) ja niiden yhdistely, sanojen ja virkkeen prosodian mallintaminen
- Kielentunnistus eli tekstin tai puheen kielen tunnistaminen näytteen perusteella
Lähteet
muokkaa- Karlström, Petter: CALL of the Wild : using language technology in the second language classroom. (Väitöskirja : Stockholms universitet) Stockholm: Kista : Department of Computer and Systems Sciences, Stockholm University together with KTH, 2009. ISBN 978-91-7155-799-5 (englanniksi)
- Koponen, Maarit: Baabelin kaloista kääntäjän työvälineisiin. Hiiskuttua, 2017, nro 2. Turku: Turun yliopisto. Artikkelin verkkoversio.
- Ruokolainen, Teemu: Contributions to morphology learning using conditional random fields. Helsinki: Aalto University, 2016. ISBN 978-952-60-6754-4 Teoksen verkkoversio. (englanniksi)
Viitteet
muokkaa- ↑ Karlsson, Fred: Kielitieteiden tohtorinväitöskirjat Suomessa 1902–2001: määrällisiä suuntauksia. Virittäjä, 1/2003. Kotikielen Seura. Artikkelin verkkoversio.
- ↑ Karlström 2009
- ↑ Ruokolainen 2016
Aiheesta muualla
muokkaa- FILT (Arkistoitu – Internet Archive) eli Suomen kieliteknologian dokumentointikeskus, jossa linkit Suomessa oleviin kieliteknologian parissa toimiviin firmoihin, laitoksiin, erilaisiin kieliteknologisiin tuotteisiin ym. viittaavaa tietoa.
- NORDOKNET (Arkistoitu – Internet Archive) eli pohjoismainen kieliteknologian dokumentointikeskus, joka yhdistää eri Pohjoismaissa toimivia dokumentointikeskuksia.
- Language Technology World, jossa on huomattava määrä tietoa siitä, mitä kieliteknologia on. Siellä luetellaan kieliteknologian eri teknologiat, suuri määrä ihmisiä, tuotteita, hankkeita ja firmoja sekä organisaatioita ym. kieliteknologiaan liittyvää.
- ACL The Association for Computational Linguistics, joka on alan tärkein kansainvälinen organisaatio.