Korrelaatio

todennäköisyyslaskennassa ja tilastotieteessä kahden muuttujan välistä riippuvuutta kuvaava käsite

Korrelaatio on todennäköisyyslaskennassa ja tilastotieteessä käytetty käsite, joka kuvaa kahden muuttujan välistä riippuvuutta. Korrelaatiokerroin on numeerinen mitta satunnaismuuttujien väliselle lineaariselle riippuvuudelle. Riippumattomien muuttujien välillä ei ole korrelaatiota.

Pearsonin korrelaatiokerroin mittaa lineaarista riippuvuutta: neljä tapausta, joissa korrelaatio on 0,81

Korrelaatiokerroin saadaan standardoimalla muuttujien kovarianssi välille [−1, 1]. Standardointi tehdään jakamalla kovarianssi muuttujien keskihajontojen tulolla.

Korrelaatiokerroin ei siis riipu käytetyistä yksiköistä. Mitä enemmän korrelaatiokerroin poikkeaa nollasta, sitä voimakkaampaa muuttujien välinen riippuvuus on. Arvo 1 tarkoittaa, että muuttujien välillä on täydellinen lineaarinen riippuvuus (−1 tarkoittaa täydellistä negatiivista lineaarista riippuvuutta), ts. toisen muuttujan voi laskea tarkasti lineaarisesti toisen arvosta.

Korrelaatio voidaan laskea usealla eri tavalla muuttujien mitta-asteikosta ja käyttötarkoituksesta riippuen. Tavallisesti sanalla korrelaatiokerroin (joskus vain korrelaatio) tarkoitetaan kuitenkin Pearsonin korrelaatiokerrointa. Nimestä huolimatta sen esitti ensimmäisenä Francis Galton. Jos tarkasteltavat muuttujat on mitattu vain järjestysasteikolla, niin korrelaation mittaamiseen soveltuu paremmin jokin ei-parametrinen korrelaatiokerroin.

Riippuvuus voi olla vahva, vaikka korrelaatio olisi nolla muokkaa

 
Useita (xy)-parien pistejoukkoja sekä kunkin joukon x- ja y-koordinaattien korrelaatiokerroin. Korrelaatio heijastaa lineaarisen riippuvuuden suuntaa ja kohinaisuutta (hajontaa), kuten ylärivi kuvaa, muttei kulmakerrointa, kuten keskirivi kuvaa, eikä mitään epälineaarista riippuvuutta, kuten alarivi kuvaa. Huomaa, että keskimmäisen kuvaajan kulmakerroin on nolla mutta korrelaatiokerrointa ("0/0") ei voi laskea.

Korrelaatio mittaa ainoastaan lineaarista riippuvuutta, siis kertoo siitä, jos ensimmäisen muuttujan (x) suuret arvot ovat pieniä arvoja enemmän yhteydessä toisen muuttujan (y) suuriin arvoihin (tai päinvastoin pieniin arvoihin). Se on sitä lähempänä lukua 1 tai −1, mitä lähempänä kuvaaja on jotain suoraa   (kuten oheisen kuvan ensimmäisellä rivillä; b:n etumerkki määrää korrelaatin etumerkin).

Jos riippuvuus on ei-lineaarinen, esimerkiksi suuret ja pienet x:n arvot liittyvät suuriin y:n arvoihin mutta keskisuuret x:n arvot pieniin (esimerkiksi käyrä   välillä [−10, +10]), korrelaatio voi olla nolla vaikka riippuvuus olisi täydellinen niin, että x:n arvosta voitaisiin täydellisesti päätellä y:n arvo.

Oheisen kuvan alimman rivin pistejoukoissa selvästi muuttujien y ja x arvojen välillä on yhteys, riippuvuus, vaikka riippuvuus ei olekaan lineaarinen, suuret x:n arvot eivät ole suuriin y:n arvoihin yhteydessä sen useammin kuin pienetkään. Silti tieto x:n arvosta auttaa niissäkin veikkaamaan y:n arvoa.

Korrelaatio ei todista syy-seuraussuhdetta muokkaa

Korrelaatio voi olla pienestä otoksesta johtuva sattuma. Voi myös olla, että y on x:n syy tai päinvastoin, tai sitten jokin kolmas asia voi olla molempien syy, esimerkiksi jäätelönsyönti ja hukkumiset ovat kumpikin runsaampia kesällä mutta eivät silti ole toistensa syitä vaan kuumuus on molempien syy. Siis korrelaatio ei implikoi kausaliteettia. Usein se on kuitenkin hyvä vihje mahdollisesta syy-seuraussuhteesta.

"Jäätelökorrelaatio" tarkoittaakin sitä klassista virhepäätelmää, että asioiden esiintyminen yhdessä tarkoittaisi toisen olevan toisen syy.[1][2]

Pearsonin korrelaatiokerroin muokkaa

Matemaattinen määritelmä muokkaa

Satunnaismuuttujien   ja   välinen korrelaatio   on määritelty:

 

missä   ja   ovat muuttujien odotusarvot sekä   ja   ovat muuttujien keskihajonnat.

Koska   ja  , voidaan yhtälö kirjoittaa myös:

 

Korrelaatio on määritelty vain, jos molemmat keskivirheet ovat äärellisiä ja nollasta poikkeavia. Cauchyn–Schwarzin epäyhtälön perusteella korrelaation itseisarvo ei voi ylittää yhtä. Riippumattomien muuttujien korrelaatio on 0, mutta päinvastainen ei ole välttämättä totta. Esimerkiksi kun   on tasajakautunut välillä (-1,1) ja  , on niiden välinen korrelaatio 0, vaikka ne riippuvat toisistaan. Normaalijakautuneiden satunnaismuuttujien tapauksessa korreloimattomuus tosin johtaa riippumattomuuteen.

Etenkin kun   ja   ovat normaalijakautuneita, Pearsonin korrelaatiokerroin on paras korrelaation estimaatti.

Otoskorrelaatio muokkaa

Kun käytettävissä on koko selitettävä aineisto (esimerkiksi tutkitaan suomalaisten painon riippuvuutta pituudesta ja tiedot on saatu kaikista suomalaisista), Pearsonin korrelaatiokerroin lasketaan yllä esitetyllä tavalla. Mikäli käytettävissä on vain otos aineistosta, tulee yllä esitettyjen kaavojen sijasta laskea otoskorrelaatio seuraavasti:

 

missä   ja   ovat otoskeskiarvoja ( ) sekä   ja   ovat otoshajontoja ( ), joten

 

Tällöin näet otoksesta lasketut keskiarvot   ja   ovat yleensä lähempänä otosta kuin todellinen keskiarvo, mutta vastaavasti jakajakin on pienempi (n−1) kuin koko aineiston kohdalla käytetyssä kaavassa (n), mikä korjaa ongelman keskimäärin optimaalisesti, siis   on paras koko aineiston  :n estimaatti, joka pelkän otoksen avulla voidaan tuottaa (kun taas normaali kaava aliarvioisi sitä, miten pitkälti x:n vaihtelut selittävät y:n vaihteluita). Samaan tapaan otoskeskivirheen (otoskeskihajonnan) kaavassa on termi  , joka alemmassa, aukikirjoitetummassa otoskorrelaatiokertoimen kaavassa on sievennetty pois.

Ei-parametriset korrelaatiokertoimet muokkaa

Pearsonin korrelaatiokerroin on parametrinen tunnusluku ja vähemmän hyödyllinen, jos taustalla oleva normaalisuusoletus ei päde. Ei-parametriset korrelaatiokertoimet ovat tällöin parempia korrelaation laskemiseen. Ne ovat vähemmän tehokkaita normaalisuusoletuksen vallitessa mutta antavat epäselvissä tapauksissa luotettavampia tuloksia.

Seuraavat menetelmät perustuvat lukujen järjestykseen, joten niitä voidaan käyttää myös silloin, kun muuttujat on mitattu järjestysasteikolla:

Katso myös muokkaa

Lähteet muokkaa

  1. Tervetuloa töihin (Arkistoitu – Internet Archive), Anu Partanen, Helsingin Sanomien kuukausiliite, elokuu 2010.
  2. Cognitive Science: An Introduction to Mind and Brain, Daniel Kolak, William Hirstein, Peter Mandik, Jonathan Waskan, Routledge, 3.10.2006, page 65.

Aiheesta muualla muokkaa