Puhetiedonhaku (engl. Speech retrieval) on kyseessä, kun puhuttua luonnollista kieltä sisältävistä sähköisistä arkistoista haetaan dokumentteja niiden puhutun sisällön perusteella.[1] Puhetiedonhaun tavoitteena on saattaa puheena tallennettu tieto ihmisten käytettäväksi.

Puhe on aikasidonnainen tapa välittää informaatiota. Puhetta ei esimerkiksi voi silmäillä läpi niin kuin painettua tekstiä, vaan puheen ymmärtäminen edellyttää, että sitä kuunnellaan suunnilleen samalla nopeudella kuin se on tuotettu. Siksi puheen muodossa olevan tiedonhakuun keskittyvien järjestelmien kehittäminen on tärkeää.[2] Puhehakuun on kaksi päälähestymistapaa: jatkuva puheentunnistus ja pienempien yksikköjen tunnistus. Ensimmäisessä tavassa voidaan tunnistaa luonnollinen puhe kirjoitetun kielen sanoiksi käyttäen jatkuvan puheen puheentunnistinta. Toinen lähestymistapa perustuu puolestaan sanaa pienempien yksikköjen tunnistamiseen, esimerkiksi foneemien tunnistamiseen.[1]

Lähteet muokkaa

  1. a b Järvelin Kalervo; Sormunen Eero: Tiedon tallennus ja haku. Informaatiotutkimuksen valintakokeen materiaali, 2009, s. 37-76. Tampere: Informaatiotutkimuksen laitos, Tampereen yliopisto. (suomeksi)
  2. Ekman, Inger: Suomenkielinen puhehaku 2003. Viitattu 2.10.2010.
Tämä kieliin tai kielitieteeseen liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.