Puheanalyysi

puheen tai äänen analysointi digitaalisesti
Tämä artikkeli kertoo puheäänen analyysistä. Puhe-esityksen analyysi ei kuulu tähän.

Puheanalyysi (myös äänianalyysi[1]; engl. speech analysis[2], engl. voice analysis[2]) on puheteknologiassa puhe- ja lauluäänen sekä muitten äänitaajuisten (20–20 000 Hz) äänten kuten vaikkapa musiikkisoittimien äänten, keuhkoäänten, lasten itkujen, puheessa havaittavien emootioiden, hyvän radioäänen, puheäänen kuormittuneisuuden analysoimista, eri kielten ja murteitten äänteiden vertailun tutkimusta digitaalisen signaalinkäsittelyn keinoin. [3][4]

Intelligent Speech Analyser™ (ISA) -laitteisto ja -ohjelmisto (1986–) [5]

Puheanalyysin tekniikkaMuokkaa

Yleensä digitaaliseen signaalinkäsittelyyn perustuvat puheanalyysit sisältävät:[5]

  • erilaisia ihmisäänen yksittäisspektrianalyysejä (FFT-spektri (engl. FFT spectrum[5]), kepstri (engl. cepstrum[5]), LPC-spektri (engl. LPC spectrum[5]), auditorinen spektri (engl. auditory spectrum[5]), auditorinen äänekkyysspektri (engl. auditory loudness spectrum[5]))  -,  -,  -asteikoilla.
  • erilaisia ihmisäänen FFT-keskiarvospektrianalyysejä eli LTAS-analyysejä (engl. LTAS analyses[5])  -,  -,  -asteikoilla.
  • erilaisia ihmisäänen FFT-, LPC-, auditorisia spektrogrammeja (engl. auditory spectrograms[5])  -,  -,  -asteikoilla.
  • erilaisia ihmisäänen FFT-, kepstri-, LPC-, auditorisia spektrisarjoja (engl. auditory waterfalls[5])  -,  -,  -asteikoilla.
  • erilaisia puheen perustaajuuden (äänenkorkeuden) F0-analyysejä (engl. F0 analyses[5]) käyrinä aika mukana ja ilman aikaa  -,  -,  -,  -,  -asteikoilla.
  • erilaisia puheen amplitudin A0-analyysejä (engl. A0 analyses[5]) käyrinä aika mukana ja ilman aikaa  -asteikolla.
  • erilaisia puheen äänenvoimakkuustason SPL-analyysejä (engl. SPL analyses[5]) käyrinä ja erilaisia mittauksia  -asteikolla.
  • erilaisia puheen jitter- ja shimmer-analyysejä (engl. jitter and shimmer analyses[5]) käyrinä ilman aikaa  -asteikolla ja  -asteikolla.
  • erilaisia puheen äänekkyysanalyysejä (engl. loudness analyses[5]) käyrinä ja spektreinä  -asteikolla (engl. sone scale[5]).
  • puheen äänikenttäanalyysejä (engl. voice field analyses[5]) kaksi- ja kolmiulotteisina esityksinä  -asteikoilla.
  • puheen fonetogrammianalyysejä (engl. fonetogram analyses[5]) kaksiulotteisina esityksinä  -asteikoilla.
  • puheen erilaisten mitattavien suureitten jakauma-analyysejä (engl. histogram analyses[5]) ja jakaumien perussuureita kuten keskiarvo, keskihajonta, vaihteluväli.
  • puheen formanttimittauksia (engl. formant measurements[5]) ja formanttikarttoja (engl. formant charts[5])  -,  -,  -,  -,  -asteikoilla.

Yleensä puheanalyysiohjelmissa on:[5]

  • valmiita tuloskuvapohjia monenlaisille suureille ja monenlaisilla asteikoilla.
  • tuloskuvat muodostavat uusia analyysejä, jotka toimivat aika- ja taajuussynkronoidusti muitten analyysien kanssa.
  • analyysikuvissa on ajassa liikkuva kursori ja taajuuksissa liikkuva kursori.
  • puheen yksi- tai monikanavainen sisäänotto analysoitavaksi.
  • puheen yksi- tai monikanavainen kuuntelu.
  • puheen yksi- tai monikanavainen editointi ja suodatus.
  • puheen signaalikuva ja verhokäyräkuva ja erilaisten segmenttirajojen asettaminen niihin ja muihin analyysikuviin.
  • puheen osien kuten äänteiden, tavujen, lauseitten ja virkkeitten aikakestojen analyysejä puhesignaalista, sen verhokäyrästä ja erilaisista aikaa sisältävistä analyysikuvista.
  • puheen rytmin analyysejä aikaa sisältävistä analyysikuvista.
  • aika-akselin sisältävissä analyysikuvissa on siirrettävä aikakursori ja taajuusakselin sisältävissä analyysikuvissa lisäksi myös siirrettävä taajuuskursori.
  • analyysikuvat on aikasynkronoitu toisiinsa niin, että siirrettäessä missä tahansa analyysikuvassa aikakursoria se siirtyy myös muissa analyysikuvissa.
  • analyysikuvat on myös taajuussynkronoitu toisiinsa niin, että siirrettäessä missä tahansa analyysikuvassa taajuuskursoria se siirtyy myös muissa analyysikuvissa riippumatta erilaisista .taajuusakseliesityksistä.
  • kullakin analyysillä on oma kuvansa, joka on vapaasti siirreltävissä ja kooltaan zoomattavissa.
  • analyysikuvat päivittävät automaattisesti itsensä käyttäjän tekemän muutoksen jälkeen.

Digitaalisen signaalinkäsittelyn menetelmien algoritmit perustuvat kompleksilukujen ja kompleksilukumuunnosten käyttöön[6][7][8][9][10][11][12][13].

Puheanalyysin taajuussuureitten muunnoskaavojaMuokkaa

  • Hertsit Barkkeina:  , f on taajuuden arvo hertseinä. [1]
  • Barkit hertseinä:  , x on taajuuden arvo Barkkeina. [1]
  • Hertsit ERB:einä:  , f on taajuuden arvo hertseinä. [1]
  • ERB:it hertseinä:  , x on taajuuden arvo ERB:einä. [1]
  • Hertsit meleinä:  , f on taajuuden arvo hertseinä. [1]
  • Melit hertseinä:  , x on taajuuden arvo meleinä. [1]
  • Hertsit puolisävelinä:  , f on taajuuden arvo hertseinä,   vastaa 440 hertsin puolisävelarvoa. Esim. 880 hertsin st-arvo on   ja 220 hertsin st-arvo on  . Eli taajuuden hertseinä kaksinkertaistuessa puolisävelet lisääntyvät määrällä 12 ja taajuuden hertseinä puolittuessa puolisävelet vähenevät määrällä 12. Puolisävel-asteikko on tasavälinen asteikko. [14]
  • Puolisävelet hertseinä:  , st on taajuuden arvo puolisävelinä,   vastaa 440 hertsin puolisävelarvoa. [14]

Puheanalyysin laskentakaavojaMuokkaa

  • Jos   on mikrofonin jännitesignaali, niin  (nT) = k (nT), jossa   on paine, k on vakiokerroin, T on näytevälin pituus. [5]
  • Amplitudiverhokäyrä:  , x(n) on signaalinäytteen arvo hetkellä n. [5]
  •  :  , max(n) on ilmaistavan signaalin maksimiarvo hetkellä n. [5]
  • Tavallinen  :  , x(n) on signaalinäyte hetkellä n. [5]
  • Äänekkyys N soneina:  ,   on äänekkyystaso foneina. [15][1][16]

Puheanalyysin teoriakaavoja ja teoriakuvauksiaMuokkaa

  • Digitaalisen signaalinkäsittelyn kompleksinen perusteoria perustuu osaltaan z-muunnoksen ja sen käänteismuunnoksen olemassaoloon ja käyttöön.  .  . x(n) on signaalinäyte, z on kompleksinen muuttuja. [6]
  • Digitaalisen signaalinkäsittelyn kompleksinen perusteoria perustuu myös osaltaan diskreetin Fourier-muunnoksen DFT:n ja sen käänteismuunnoksen IDFT:n olemassaoloon ja käyttöön.  ,  , muulloin  .  ,  , muulloin  .  , N on signaalin x(n) näytteiden määrä. [6]
  • DFT tehollisessa muodossa:  , x(n) on signaalinäyte hetkellä n, w(n) on painotusikkuna, k on spektrikanavan/spektripisteen kohta. Spektrissä kanavien määrä N/2 on aina puolet signaalipisteiden määrästä N. Jos painotusikkunan leveys on signaalipisteitten määrää N pienempi asetetaan painotusikkunan molempiin päihin nollia niin paljon, että signaalin pituus ja painotusikkunan leveys saadaan käytännössä samaksi. [6] Kaava lasketaan nopeaa Fourier-laskentahajotelmaa FFT käyttäen. [6]
  • Hamming-painotusikkuna  [5].
  • Blackman-Harris-painotusikkuna  [5].
  • DFT dB-muodossa:  . [6]
  • LTAS tuotetaan laskemalla keskiarvo tehollisessa muodossa   olevista DFT:eistä ja lopuksi tehollinen keskiarvo muutetaan dB-muotoon  . [6]
  • Usean LTAS-spektrin keskiarvo lasketaan tehollisessa muodossa olevien LTAS-spektrien keskiarvona ja lopuksi tehollinen keskiarvo muutetaan dB-muotoon. [6]
  • Puheanalyysiin käyttökelpoinen kepstri syntyy laskemalla dB-muodossa   olevasta DFT:stä uusi DFT  . [6]
  • Äänen äänekkyystaso foneina[15][1][16][4][5] on yhtä suuri kuin yhtä äänekkäältä tuntuva 1kHz:n ääneksen äänenpainetaso desibeleinä. Äänekkyys on kuuntelijan subjektiivinen vaikutelma äänen voimakkuudesta. Sen yksikkö on soni[15][1][16][4][5]. Soni-asteikko on laadittu niin, että soni-määrän kaksinkertaistuminen vastaa myös äänekkyyden kaksinkertaistumista. [5]

FFT-spektriMuokkaa

Ihmisäänen FFT-spektri dB-asteikolla tuotetaan yllä olevia DFT:n kaavoja käyttäen. FFT-spektri käytännössä lasketaan nopeaa Fourier-muunnoshajotelmaa FFT:tä käyttäen. Vaihtoehtoja nopeaksi Fourier-muunnoshajotelmaksi on monta. [5]

KepstriMuokkaa

Puheanalyysissä kepstri saadaan aikaan seuraavasti. Otetaan ensin Fourier-muunnos äänisignaalista. [5] Näin saadaan uusi signaali seuraavaa Fourier-muunnosta varten.[5] Seuraava Fourier-muunnos laskee uudesta signaalista uuden Fourier-käyrän. [5] Fourier-käyrän voimakkain huippu kuvaa alkuperäisen äänisignaalin perustaajuutta ja huipun avulla voidaan määrittää äänen perustaajuus. [5] Kepstrihuipun avulla perustaajuuden määritys on tarkempi kuin ensimmäisen Fourier-muunnoksen ensimmäisestä harmoonisesta mitattu perustaajuus. [5]

Puheanalyysiin käyttökelpoinen kepstri tuotetaan dB-muodossa olevasta DFT:stä laskemalla siitä uusi DFT. [1][5]

Minkä tahansa ajassa muuttuvan signaalin perustaajuus on määrättävissä kepstrin avulla. [5]

LPC-spektriMuokkaa

LPC-spektrin tuottamiseen on käytettävissä monta erilaista LPC-laskentamenetelmää. Kun LPC halutaan tulostaa myös FFT-spektrin taustakuvana on PARCOR-menetelmä käytännössä kaikkein toimivampia ja mahdollisimman kaunista kuvaesitystä tuottavaa. LPC-spektri esitetään dB-asteikolla. LPC-spektristä formantit F1, F2, F3 ja F4 voidaan tunnistaa suodattamalla LPC-spektriä sopivalla kaistanpäästösuodatuksella, jolloin vain formanttien kohdalle muodostuu kumpuja. [5]


LTAS-spektriMuokkaa

Ihmisäänen LTAS-spektri tuotetaan laskemalla keskiarvo tehollisessa muodossa olevista DFT:stä ja lopuksi tehollinen keskiarvo muutetaan dB-muotoon. [5]

LTAS-spektrien keskiarvospektriMuokkaa

Usean ihmisäänen LTAS-spektrien keskiarvospektri lasketaan tehollisessa muodossa olevien LTAS-spektrien keskiarvona ja lopuksi tehollinen keskiarvo muutetaan dB-muotoon. [5]

FFT-, kepstri-, LPC-spektrisarjatMuokkaa

FFT-, kepstri-, LPC-spektrisarjat tuotetaan laskemalla muutaman kymmenen millisekunnin välein liukuvasti spektrejä ja sisällyttämällä analyysikuvaan myös aika-akseli. [5]

FFT-spektrogrammiMuokkaa

FFT-spektrogrammi tuotetaan laskemalla muutaman millisekunnin välein liukuvasti FFT-spektrejä dB-asteikolla ja muuttamalla kunkin spektrin kanavien voimakkuudet harmaansävyiksi analyysikuvaan. [5]

LPC-spektrogrammiMuokkaa

LPC-spektrogrammi tuotetaan laskemalla muutaman millisekunnin välein liukuvasti LPC-spektrejä dB-asteikolla ja ilmaisemalla sen jälkeen kaistanpäästösuodatuksella spektreistä neljä ensimmäistä formanttitaajuutta ja tulostaen ilmaistut formantit harmaansävyinä analyysikuvaan. [5]

Perustaajuusanalyysi (äänenkorkeusanalyysi)Muokkaa

Puheen perustaajuusanalyysin algoritmi perustuu joko aikatasossa tapahtuvaan tai taajuustasossa tapahtuvaan ilmaisuun. Jotkut aikatasossa tapahtuvista ilmaisuista poikkeavat taajuustasossa tapahtuvista ilmaisuista ensisijaisesti siinä, että aikatasossa on mahdollista ilmaista ja numeroida yksitellen jokainen puheen perusjakso. Taajuustasoilmaisussa puheen perustaajuus havaitaan tiettynä ajanhetkenä liukuvan aikaikkunan sisällä. Jokaisen perusjakson yksitellen ilmaisevaa algoritmia tarvitaan myös tarkan F0-jakauman luontiin ja siitä tehtävien tarkkojen tilastosuureitten luontiin. Jos F0-jakauman laskennassa on mukana muutakin kuin pelkästään kaikkien todelliset perusjaksojen taajuudet on tilastosuure epätarkka. Aikatason ilmaisuista voidaan mainita kaistanpäästöesisuodatukseen & suoraan säännöillä signaalista tapahtuvaan ilmaisuun perustuvat menetelmät ja autokorrelaatioon perustuvat menetelmät. Taajuustasossa tapahtuvista ilmaisuista voidaan mainita kaksinkertaiseen DFT:hen eli kepstriin perustuvat menetelmät. Kepstriin perustuvat F0-analyysit toimivat vaikka signaalin perustaajuuskomponentti puuttuisikin. Aikataso- ja taajuustasoilmaisuissa voidaan esisuodatuksena käyttää kaistanpäästösuodatusta sekä käänteissuodatusta, jotka pyrkivät yksinkertaistamaan analysoitavaa puhesignaalia. [5]

Jitter ja shimmerMuokkaa

Jitter ja shimmer kuvaavat puheen perusjaksojen taajuuden ja amplitudin muutoksia perusjaksosta toiseen. Algoritmi perustuu aikatasossa tapahtuvaan perustaajuusilmaisuun, joka ilmaisee ja numeroi yksitellen jokaisen puheen perusjakson, sen perustaajuuden ja maksimiamplitudin. Jitter lasketaan  -asteikolla ja shimmer  -asteikolla. [5]

ÄänikenttäMuokkaa

Äänikenttä tuotetaan aikatasossa tapahtuvalla perustaajuusanalyysillä (äänenkorkeusanalyysillä), joka ilmaisee ja numeroi yksitellen jokaisen puheen perusjakson, sen perustaajuuden (äänenkorkeuden) ja maksimiamplitudin. Äänikenttäkuvassa  -asteikko on pystysuunnassa ja  -asteikko tai  -asteikko vaakasuunnassa. Kuvaan tulostetaan myös molempien suureitten jakaumat. [5]


FormanttikarttaMuokkaa

Formanttikartta on kaksiulotteinen kuva puheen vokaalien formanttitaajuuksien mittaustuloksista taajuusasteikolla, joissa taajuussuureena on yleensä Hz, Bark tai ERB. Taajuusasteikot tekevät kuvassa tarvittaessa taajuusmuunnoksia. Historiallisesti formanttikarttoja tehtiin aluksi Hz-asteikolla. Auditorisen ajattelun mukaan tullessa asteikoksi tuli myös Bark-asteikko. Vähän myöhemmin ERB-asteikko. Bark-asteikkoa käytettäessä formanttikarttaan tulee lisäpiirteenä pisteitten merkitseminen 1 Bark:in kokoisina ympyröinä, jolloin ajatuksena on, että kun vokaalien ympyrät eivät mene kartassa päällekkäin niin ne ovat toisistaan hyvin erottuvia. Jos taas menevät päällekkäin saattaa siitä seurata, että vokaalit eivät erotu hyvin toisistaan. Näin vokaalien erotettavuutta toisistaan voidaan eksaktisti ja havainnollisesti mitata formanttikarttakuvan avulla. [5]


Auditorisen ja auditiivisen eroMuokkaa

Auditorinen viittaa kuuloelimiin liittyvään asiaan ja auditiivinen viittaa ulkoiseen kuuloon liittyvään asiaan. [4][1][5]

Auditorinen spektriMuokkaa

Auditorinen spektri eli Auditory Spectrum on Otaniemessä Akustiikan laboratoriossa 1982–1983 kehitettyyn Bark-asteikkoiseen tekniseen kuulon malliin ja suodinpankkilaskentaan perustuva spektriesitys kuvaamaan ihmisääntä kuuloalueella 20–10 000 Hz. Auditorinen spektri tuotetaan suodattamalla auditorisella kaistanpäästösuodinpankilla ääntä muutaman kymmenen millisekunnin ajan ja laskemalla lopussa äänikomponenttien voimakkuudet kriittisen kaistan eli 1 Bark:in levyisistä taajuuskaistoista 1/2 Bark:in välein ja tuottamalla siitä 48 arvoa sisältävä spektri. Kehitettyä auditorista spektriä tutkittiin ja sovellettiin professori Matti A. Karjalaisen ja DI Raimo Olavi Toivosen toimesta akateemisesti Akustiikan laboratoriossa Suomen Akatemian Modelling of Auditory and Speech Communication -tutkimushankkeessa 1982–1986 [17][18][19][5].


Auditorinen suodinpankkiMuokkaa

Auditorinen suodinpankki eli Auditory Filter Bank poikkeaa muista auditorisista kuulonmalleista siinä, että se sisältää taajuuspeiton lisäksi myös aikatason esi- ja jälkipeiton. Puheentunnistuksessa ja puhujantunnistuksessa käytetyt auditoriset mallit eivät sisällä puheanalyysissä tärkeää aikatason esi- ja jälkipeittoa ja ovat siksi epätarkempia kuulonmalleja eivätkä siksi niin hyvin sovellu ihmispuheen ominaisuuksien tutkimiseen eri tieteen aloilla. Kehitettyä auditorista suodinpankkia tutkittiin ja sovellettiin professori Matti A. Karjalaisen ja DI Raimo Olavi Toivosen toimesta akateemisesti Akustiikan laboratoriossa Suomen Akatemian Modelling of Auditory and Speech Communication -tutkimushankkeessa 1982–1986 [17][18][19][5].

Auditorinen spektrisarjaMuokkaa

Auditorinen spektrisarja eli Auditory Waterfall tuotetaan laskemalla auditorisella kaistanpäästösuodinpankilla muutaman kymmenen millisekunnin välein liukuvasti auditorisia spektrejä. Kehitettyä auditorista spektrisarjaesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditorinen spektrogrammiMuokkaa

Auditorinen spektrogrammi eli Auditory Spectrogram tuotetaan kaistanpäästösuodattamalla auditorisen spektrisarjan kukin spektri Bark-asteikolla niin, että saadaan aikaan spektriesitys, jossa näkyy vain löydetyt ihmisäänen auditoriset formanttitaajuudet harmaansävyinä. Kehitettyä spektrogrammiesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Äänekkyyden ja äänekkyystason eroMuokkaa

Äänekkyyden yksikkö on soni[15][1][16][4][5] ja äänekkyystason yksikkö on foni[15][1][16][4][5].

Auditorinen äänekkyysspektriMuokkaa

Auditorinen äänekkyysspektri eli Auditory Loudness Spectrum tuotetaan auditorisesta spektristä muuntamalla kunkin kriittisen kaistan eli Bark-kaistan arvo soneiksi ja tuottamalla näin uusi spektriesitys. Kehitettyä spektriesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditorinen kokonaisäänekkyysMuokkaa

Auditorinen kokonaisäänekkyys eli Auditory Loudness tuotetaan summaamalla äänekkyysspektrissä kaikki kriittisten kaistojen 24 soni-arvoa.[5] Kehitettyä äänekkyysesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditorinen äänekkyyskäyräMuokkaa

Auditorinen äänekkyyskäyrä eli Auditory Loudness Curve tuotetaan laskemalla kokonaisäänekkyysarvoja tasa-aikavälein ja tuottamalla siitä käyräesitys aika-asteikolla. Kehitettyä käyräesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditorinen äänekkyysmuutoskäyräMuokkaa

Auditorinen äänekkyysmuutoskäyrä eli Auditory Chance in Loudness Curve tuotetaan suodattamalla/derivoimalla äänekkyyskäyrää niin, että saadaan aikaan käyrä, jossa näkyy kumpuina vain muutoskohdat. Kehitettyä käyräesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditorinen sointispektriMuokkaa

Auditorinen sointispektri tuotetaan auditorisesta spektristä ilmaisemalla jokaisesta kriittisen kaistan eli 1 Bark:in levyisestä äänikaistasta kepstrissä näkyvä perustaajuuspiikin (äänenkorkeuspiikin) voimakkuus ja laskemalla nämä 1/2 Bark:in välein 24 Bark:in taajuusalueelta. Näin saatu uusi spektri kuvaa miten vahvasti perustaajuus (äänenkorkeus) ja äänen harmoonisuus näkyvät 24 Bark:in levyisellä taajuusalueella. Tämä menetelmä toimii vaikka äänen FFT-spektristä puuttuisi perustaajuuskomponentti. Kehitettyä spektriesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditoriset usean samanaikaisen äänen sointispektritMuokkaa

Auditoriset usean samanaikaisen äänen sointispektrit voidaan auditorisen sointispektrin laskennalla erottaa tosistaan seuraamalla usean samanaikaisen äänen perustaajuutta (äänenkorkeutta) kepstrillä ja ilmaisemalla kunkin perustaajuuspiikin (äänenkorkeuspiikin) voimakkuus. Näin saadut uudet spektrit kuvaavat miten vahvasti perustaajuus (äänenkorkeus) ja äänen harmoonisuus näkyvät 24 Bark:in levyisellä taajuusalueella kun kyseessä on useita samanaikaisia eri perustaajuisia ääniä. Tämä menetelmä toimii vaikka äänten FFT-spektreistä puuttuisi perustaajuuskomponentti. Kehitettyä spektriesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditorinen usean samanaikaisen perustaajuuden (äänenkorkeuden) ilmaisuMuokkaa

Auditorinen usean samanaikaisen perustaajuuden (äänenkorkeuden) ilmaisu tuotetaan auditorisen usean samanaikaisen äänen sointispektrin laskennalla erottamalla ilmaistut eri perustaajuudet omiksi F0-käyrikseen. Tämä menetelmä toimii vaikka äänen FFT-spektreistä puuttuisi perustaajuuskomponentti. [5]

Katso myösMuokkaa

LähteetMuokkaa

  1. a b c d e f g h i j k l m n Karjalainen, Matti: Kommunikaatioakustiikka. Oppikirja. Espoo: TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio, 1999. ISBN 951-22-4412-8.
  2. a b Kent, Ray D. & Read, Charles: The Acoustical Analyses of Speech. Singular Publishing Group, Inc., 1992. ISBN 1-56593-364-8.
  3. Laukkanen, Anne-Maria & Leino, Timo: Ihmeellinen ihmisääni – äänenkäytön ja puhetekniikan perusteet, arviointi, mittaaminen ja kehittäminen. Oppikirja. Helsinki: Gaudeamus, 1999. ISBN 951-662-782-X.
  4. a b c d e f Suomi, Kari: Johdatusta puheen akustiikkaan. Oppikirja. Logopedian ja fonetiikan laitoksen julkaisuja 4. Oulu: Oulun yliopisto, 1990. ISBN 951-42-2922-3.
  5. a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au av aw ax ay az ba bb bc bd be bf bg bh bi bj bk bl bm bn bo bp bq br bs bt Kuvaus löytyy Intelligent Speech Analyser™:in sivuilta
  6. a b c d e f g h i Oppenheim, Alan V. & Schafer, Roland W.: Digital Signal Processing. Prentice-Hall, Inc., 1975. ISBN 0-13-214635-5.
  7. Rabiner, Lawrence R. & Gold, Bernard: Theory and Application of Digital Signal Processing. Prentice-Hall, Inc., 1975. ISBN 0-13-914101-4.
  8. DeFatta, David J. & Lucas, Joseph G. & Hodgkiss, William S.: Digital Signal Processing, A Systems Design Approach. John Wiley & Sons, Inc., 1988. ISBN 0-471-63765-3.
  9. Proakis, John G. & Manolakis, Dimitris G.: Digital Signal Processing Principles, Algorithms, and Applications. Macmillan Publishing Company, 1992. ISBN 0-02-396815-X.
  10. Ifeachor, Emmanuel C. & Jervis, Barrie W.: Digital Signal Processing, A Practical Approach. Addison-Wesley, 1993. ISBN 0-201-54413-X.
  11. Mitra, Sanjit K.: Digital Signal Processing, A Computer-Based Approach. McGraw-Hill, 1998. ISBN 0-07-115793-X.
  12. Tan, Li & Jiang, Jean: Digital Signal Processing, Fundamentals and Applications. Academic Press, 2013. ISBN 978-012-415893-1.
  13. Pulkki, Ville & Karjalainen, Matti: Communication Acoustics – An Introduction to Speech, Audio and Psychoacoustics. John Wiley & Sons, Ltd, 2015. ISBN 978-1-118-86654-2. [1] [2]
  14. a b Sundberg, Johan: ”Scales, Tunings and Temperaments”, The science of musical sounds, s. 78−105. San Diego (Calif.): Academic Press, 1991. ISBN 0-12-676948-6.
  15. a b c d e Toivanen, Jarmo: Teknillinen akustiikka. Oppikirja. Otakustantamo, 1976. ISBN 951-671-123-5.
  16. a b c d e Karjalainen, Matti: Hieman akustiikkaa (PDF) 16.10.2000. Espoo: TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio. (suomeksi)
  17. a b c d e f g h i j Karjalainen, Matti (toim.): Puheen kuulemisen mallintaminen. (On the modelling of speech perception). Raportti 29. Espoo: TKK, Akustiikan laboratorio, 1987. ISBN 951-754-154-6.
  18. a b c d e f g h i j Karjalainen, Matti: Kokemuksia auditiivisen spektrianalyysin käytöstä. Papers from the 12th Meeting of Finnish Phoneticians (Tikka, T., Ikonen, U. eds.). Joensuu: Joensuun yliopisto, 18.–19.5.1984. ISBN 951-69-6523-7.
  19. a b c d e f g h i j Karjalainen, Matti: Auditory Models for Speech Processing. Tallinn, Estonia, USSR: in Proceedings of the 11th International Congress of Phonetic Sciences (ICPhS'87), vol. 2, pp. 11–20, Invited paper, 1.–7.8.1987.

KirjallisuuttaMuokkaa

Suomalaisia teoksia

  • Karjalainen, Matti & Virtanen, Markku: Puhesignaalin särö ja sen mittaaminen. Raportti 26. Espoo: TKK, Akustiikan laboratorio, 1981. ISBN 951-752-376-9.
  • Karjalainen, Matti & Virtanen, Markku: Puheen tuottamisen ja kuulemisen mallit ja niiden käyttö särötutkimuksessa ja -mittauksessa. Raportti 27. Espoo: TKK, Akustiikan laboratorio, 1982. ISBN 951-752-587-7.
  • Karjalainen, Matti & Nuuttila, Petri: Signaaliprosessorien käyttö puheen- ja äänenkäsittelyssä. KTM:n rahoittaman tavoitetutkimuksen loppuraportti. Raportti 28. Espoo: TKK, Akustiikan laboratorio, 1983. ISBN 951-752-902-3.
  • Karjalainen, Matti: Kokemuksia auditiivisen spektrianalyysin käytöstä. Papers from the 12th Meeting of Finnish Phoneticians (Tikka, T., Ikonen, U. eds.). Joensuu: Joensuun yliopisto, 18.–19.5.1984. ISBN 951-69-6523-7.
  • Karjalainen, Matti: Tietokone puheentutkimuksessa – uusia suuntia. XIII Fonetiikan päivät – Turku 1985. (toim. Aaltonen O. & Hulkko T.) Suomalaisen ja yleisen kielitieteen laitoksen julkaisuja, 26, s. 141–160. Turku: Turun yliopisto, 1985. ISBN 951-642-751-0.
  • Karjalainen, Matti (toim.): Digitaaliaudion signaalinkäsittelymenetelmiä, Akustiikan seminaari. Raportti 41. Espoo: TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio, 1996. ISBN 951-22-3309-7.
  • Välimäki, Vesa & Karjalainen, Matti (toim.): Signaalinkäsittely audiotekniikassa, akustiikassa ja musiikissa, Äänenkäsittelyn seminaari. Raportti 50. Espoo: TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio, 1998. ISBN 951-22-4311-3.
  • Karjalainen, Matti (toim.): Kuulon mallit ja niiden sovellukset. Raportti 52. Espoo: TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio, 1999. ISBN 951-22-4507-8.
  • Karjalainen, Matti: Hieman akustiikkaa (PDF) 16.10.2000. Espoo: TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio. (suomeksi)
  • Van Bergeijk, William A. & Pierce, John R. & David, Edward E., jr: Aallot ja korva. Luonto tieteen valossa 4. Alkuteoksen nimi Wawes and the ear. Suomentanut Reino Tuokko. Helsinki: WSOY, 1960.

Vieraskielisiä suomalaisia julkaisuja

  • Mutanen, Antti: Factors conditioning consonant duration in consonantal context with special reference to initial and final consonant clusters in english. Helsinki: Suomalainen tiedeakatemia, 1973. ISBN 951-41-0099-9.
  • Iivonen, Antti & Toivonen, Raimo: Computer in der psychoakustischen analyse und representation der vokale und vokalsysteme. Computergestützte Sprachverarbeitung für Phonetik und Diagnostik (Gall, V., Hollmach, U. Hrsg.), Martin-Luther Universität Halle-Wittenberg, Wissenschaftliche Beiträge 1990/36 (F98), pp. 34–37, June 12–14 1989.
  • Iivonen, Antti & Toivonen, Raimo: Simulation of the psycho-acoustical vowel space for linguistic applications. Paris: Eurospeech 89, European Conference on Speech Communication and Technology, Vol. 2, pp. 289–292, June 12–14 1989.
  • Iivonen, Antti: Regional German Vowel Studies. Fonetiikan laitoksen monisteita 15. Helsinki: Helsingin yliopisto, April 1989.
  • Wiik, Kalevi & Raimo, Ilkka (editors): Nordic Prosody IV. Papers from a Symposium. Turku: University of Turku Phonetics, July 1990. ISBN 1-56593-379-6.
  • Riederer, Klaus & Lahti, Tapio (editors): Nordic Acoustical Meeting, 12–14 June 1996. Proceedings. Helsinki: The Acoustical Society of Finland, 1996. ISBN 951-22-3134-4.
  • Kuronen, Mikko: Om morfologiskt komplexa ords prosodi i rikssvenska och finlandssvenska – en kontrastiv studie. 92 sivua. Tampereen yliopiston pohjoismaisen filologian laitos, 1993. Teoksen verkkoversio. (Pro gradu)
  • Kuronen, Mikko: Vokaluttalet i sverigessvenska och finlandssvenska. 36 sivua. Helsingin yliopiston fonetiikan laitos, 1995. Teoksen verkkoversio. (Sivuainetutkielma)
  • Kuronen, Mikko: Vokaluttalets akustik i sverigesvenska, finlanssvenska och finska. 162 sivua. Tampereen yliopiston pohjoismaisen filologian laitos, 1997. Teoksen verkkoversio. (Lisensiaattityö) Sisältää 88 Intelligent Speech Analyserilla tehtyä kuvaa.
  • Kuronen, Mikko: Vokaluttalets akustik i sverigesvenska, finlandssvenska och finska. 233 sivua. Jyväskylän yliopisto, 20.5.2000. ISBN 951-39-0645-0. Teoksen verkkoversio. (Väitöskirja) Sisältää 181 Intelligent Speech Analyserilla tehtyä kuvaa.

Kansainvälisiä teoksia

  • DeFatta, David J. & Lucas, Joseph G. & Hodgkiss, William S.: Digital Signal Processing, A Systems Design Approach. John Wiley & Sons, Inc., 1988. ISBN 0-471-63765-3.
  • Proakis, John G. & Manolakis, Dimitris G.: Digital Signal Processing Principles, Algorithms, and Applications. Macmillan Publishing Company, 1992. ISBN 0-02-396815-X.
  • Ifeachor, Emmanuel C. & Jervis, Barrie W.: Digital Signal Processing, A Practical Approach. Addison-Wesley, 1993. ISBN 0-201-54413-X.
  • Mitra, Sanjit K.: Digital Signal Processing, A Computer-Based Approach. McGraw-Hill, 1998. ISBN 0-07-115793-X.
  • Tan, Li & Jiang, Jean: Digital Signal Processing, Fundamentals and Applications. Academic Press, 2013. ISBN 978-012-415893-1.
  • Sadaoki Furui: Digital Speech Processong, Synthesis, and Recognition. Marcel Dekker, Inc., 1989. ISBN 0-8247-7965-7.
  • Kent, Ray D. & Read, Charles: The Acoustical Analyses of Speech. Singular Publishing Group, Inc., 1992. ISBN 1-56593-364-8.
  • Sundberg, Johan: The Science of Singing Voice. Northern Illinois University Press, 1987. ISBN 0-87580-120-X.
  • Sundberg, Johan: The Science of Musical Sounds. Academic Press, 1991. ISBN 0-12-676948-6.
  • Stevens, Kenneth N. & Hirano, Minoru (editors): Vocal Fold Physiolocy. University of Tokio Press, 1981. ISBN 0-86008-281-4.
  • Bless, Diane M. & Abbs, James H. (editors): Vocal Fold Physiolocy, contemporary research & clinical issues. College-Hill Press, 1983. ISBN 0-933014-87-2.
  • Gauffin, Jan & Hammarberg, Brita (editors): Vocal Fold Physiolocy, Acoustic, Perceptual, and Physiological Aspects of Voice Mechanisms. Singular Publishing Group, Inc, 1991. ISBN 1-879105-51-9.
  • Fujimura, Osamu & Hirano, Minoru (editors): Vocal Fold Physiology, Voice Quality Control. Singular Publishing Group, Inc, 1995. ISBN 1-56593-379-6.
  • Orlikoff, Robert F. & Baken, Ronald J.: Clinical Speech and Voice Measurement, Laboratory Exercises, Instructor´s Manual. Singular Publishing Group, Inc, 1993. ISBN 1-56593-215-3.
  • Lehder, Steven: Understanding Lung Sounds. W.B.Sounders Company, 1984. ISBN 0-7216-1066-8.
  • Luchsinger, Richard & Arnold, Godfrey Edward: Voice – Speech – Language, Clinical Communicology: Its Physiology and Pathology. Wadsworth Publishing Company, Inc., 1965. ISBN 978-0534006808.
  • Fant, Gunnar: Acoustic Theory of Speech Production. Mouton De Gruyter, The Hague, 1970. ISBN 90-279-1600-4.
  • Stanley Smith Stevens: A scale for the measurement of the psychological magnitude: loudness. In: APA Journals (Hrsg.): Psychological Review, 1936:43:5:405–416. [3]
  • Fletcher, Harvey & Munson, Wilden A.: Loudness, its definition, measurement and calculation, The Journal of the Acoustical Society of America, 1933:5:2:82–108. [4]
  • Zwicker, Karl Eberhard: Subdivision of the audible frequency range into critical bands, The Journal of the Acoustical Society of America, 1961:33:2:248–248. [5]