Kovarianssi

kahden satunnaismuuttujan välisen riippuvuuden mitta

Kovarianssi on todennäköisyyslaskennassa ja tilastotieteessä kahden satunnaismuuttujan välisen riippuvuuden mitta. Se kuvaa, kuinka läheisesti muuttujat vaihtelevat yhdessä. Yksinkertaistaen voidaan havainnollistaa, että kovarianssi saa positiivisen arvon, kun satunnaismuuttujan arvot jäävät samalle puolelle odotusarvoihinsa nähden, ja vastaavasti negatiivisen arvon, kun niiden arvot jäävät eri puolille odotusarvoihinsa nähden. Kovarianssi on yhteisjakauman toinen keskusmomentti, jonka yksiköksi eli dimensioksi tulee kummankin satunnaismuuttujan yksiköiden tulo. Momentin käsitteeseen liittyy tulkinta, että kovarianssi on niin sanotun yhteisjakauman "todennäköisyysmassan painopisteen" ympärillä tapahtuvan vaihtelun mitta. Korrelaatio on kovarianssin normalisoitu tunnusluku, joka on puolestaan yksikötön.[1]

Kuvassa tapauksiin liittyvien kahden satunnaismuuttujan arvojen mukaan tulostetut pisteet muodostavat kuvion, joka on selvästi jotain muuta kuin pyöreä pistepilvi. Sen mukaan satunnaismuuttujien arvot voisivat piippua toistaan eli niillä olisi kovarianssia.

Todennäköisyyslaskennassa kovarianssi on yhteisjakauman tunnusluku, kun taas tilastolaskennassa kovarianssi on todennäköisyyslaskennan tunnusluvun estimaatti.

Määritelmä ja merkinnät

muokkaa

Matemaattisesti kovarianssi   on määritelty kahden reaaliarvoisen satunnaismuuttujan   ja   avulla

 

missä   ja   ovat vastaavasti satunnaismuuttujien odotusarvot. Kovarianssi voidaan merkitä erilaisilla vaihtoehtoisilla tavoilla, kuten esimerkiksi

  [1]

Yhteisjakaumassa voi esiintyä myös merkinnät   ja  . Ne esittävät satunnaismuuttujien keskihajontoja   ja  .[2]

Diskreetit satunnaismuuttujat

muokkaa

Diskreetin satunnaismuuttujaparin kovarianssi lasketaan

  [1]

missä   on yhteisjakauman pistetodennäköisyysfunktio.

Jatkuvat satunnaismuuttujat

muokkaa

Jatkuvan satunnaismuuttujaparin kovarianssi on taas

  [1]

missä   on yhteisjakauman tiheysfunktio.

Ominaisuuksia

muokkaa

Rinnakkaiskaavan johtaminen

muokkaa

Yleisessä tilanteessa satunnaismuuttujat ovat toisistaan riippuvia jossakin mielessä. Silloin kovarianssi voidaan kehittää edelleen hyödyntämällä odotusarvo-operaattorin tunnetut ominaisuudet:[1]

 

Riippumattomuus

muokkaa

Jos satunnaismuuttujat ovat riippumattomia, saadaan odotusarvoksi

 

Yleisen kovarianssin kehitetystä lausekkeesta tulee silloin

 

Siten, jos satunnaismuuttujat ovat riippumattomia toisistaan, saadaan kovarianssiksi nolla. Päinvastainen ei pidä aina paikkaansa, sillä kovarianssin ollessa nolla, ei satunnaismuuttujat aina ole riippumattomia toisistaan.[2][1]

Arvojoukko

muokkaa

Kovarianssin yksikkö määräytyy satunnaismuuttujien tulosta. Koska korrelaation arvo jää välille  , saadaan kovarianssin arvolle väli  , missä   on keskihajontojen tulo.

Päättelysääntöjä

muokkaa

Kovarianssille voidaan johtaa seuraavia laskusääntöjä (  ovat reaalivakioita):

 
  eli   [2][3][1] (varianssi)
  [2] (symmetrisyys)
  (kertoimien ulosotto)
  (vakionlisäys)
  [2] (summan kovarianssi)
  (lineaarikombinaatiot)
  [2] (useiden satunnaismuuttujien summat)

Tilastollinen kovarianssi

muokkaa

Arvioitaessa kahden tilastomuuttujan kovarianssia, käytetään estimaattorina lauseketta

  [2]

missä otoksen suuruus on   ja otoksen muuttujien keskiarvot ovat   ja  . Usein kuitenkin jaetaan summa otoksen suuruutta yhtä pienemmällä luvulla (vapausaste)

  [4]

Satunnaisvektorit

muokkaa

Kun X ja Y ovat n- ja m-ulotteisia pystyvektoreita, n x m-ulotteinen kovarianssimatriisi on määritelty:

 

Matriisit cov(X,Y) ja cov(Y,X) ovat toistensa transpooseja. Kun X on vektori, matriisia cov(X,X) sanotaan X:n kovarianssimatriisiksi tai pidemmin varianssi-kovarianssi-matriisiksi.[5]

Korrelaatiokerroin

muokkaa

Kovarianssilla voidaan mitata satunnaismuuttujien riippuvuuksia, mutta satunnaismuuttujien keskihajonnat vaikuttavat myös kovarianssin arvoon. Tuloksesta voidaan puhdistaa keskihajontojen vaikutukset jakamalla kovarianssi niillä, jolloin saadaan uusi riippuvuuden mitta korrelaatiokerroin

  [1]

Sen arvot vaihtelevat välillä   eikä sillä ole mittayksikköä.

Katso myös

muokkaa

Lähteet

muokkaa
  1. a b c d e f g h Mellin, Ilkka: Moniulotteiset satunnaismuuttujat ja jakaumat, s.210−223, luentomoniste kurssista Todennäköisyyslaskenta, Aalto-yliopisto, 2007
  2. a b c d e f g Weisstein, Eric W.: Covariance (Math World – A Wolfram Web Resource) Wolfram Research. (englanniksi)
  3. Weisstein, Eric W.: Variance (Math World – A Wolfram Web Resource) Wolfram Research. (englanniksi)
  4. Mellin, Ilkka: Lineaarinen regressioanalyysi, s.240−266, luentomoniste kurssista Todennäköisyyslaskenta, Aalto-yliopisto, 2007
  5. Weisstein, Eric W.: Covariance Matrix (Math World – A Wolfram Web Resource) Wolfram Research. (englanniksi)