Ero sivun ”Korrelaatio” versioiden välillä

[arvioimaton versio][arvioimaton versio]
Poistettu sisältö Lisätty sisältö
Ei muokkausyhteenvetoa
Parodi (keskustelu | muokkaukset)
Ei muokkausyhteenvetoa
Rivi 5:
'''Korrelaatio''' on [[todennäköisyyslaskenta|todennäköisyyslaskennassa]] ja [[tilastotiede|tilastotieteessä]] käytetty käsite, joka kuvaa kahden muuttujan välistä riippuvuutta. '''Korrelaatiokerroin''' tarkoittaa aineistosta laskettua havaintojen välistä korrelaatiota. Tarkkaan ottaen se on numeerinen mitta satunnaismuuttujien väliselle lineaariselle riippuvuudelle. Riippumattomien muuttujien välillä ei ole korrelaatiota.
 
PohjimmiltaanKorrelaatiokerroin korrelaatiosaadaan onstandardoimalla muuttujien [[kovarianssi]], joka on standardoitu välille [-1,1]. Korrelaatiokerroin ei siis riipu käytetyistä [[yksikkö|yksiköistä]]. Mitä enemmän korrelaatiokerroin poikkeaa nollasta, sitä voimakkaampaa muuttujien välinen riippuvuus on. Arvo 1 tarkoittaa, että muuttujien välillä on täydellinen [[lineaarinen riippuvuus]] (-1 tarkoittaa täydellistä negatiivista riippuvuutta). Standardointi tehdään jakamalla kovarianssi muuttujien [[keskihajonta|keskihajontojen]] tulolla.
 
Korrelaatiokerroin ei siis riipu käytetyistä [[yksikkö|yksiköistä]]. Mitä enemmän korrelaatiokerroin poikkeaa nollasta, sitä voimakkaampaa muuttujien välinen riippuvuus on. Arvo ''1'' tarkoittaa, että muuttujien välillä on täydellinen [[lineaarinen riippuvuus]] (''-1'' tarkoittaa täydellistä negatiivista lineaarista riippuvuutta), ts. toisen muuttujan voi laskea tarkasti lineaarisesti toisen arvosta.
 
Korrelaatio voidaan laskea usealla eri tavalla muuttujien [[mitta-asteikko|mitta-asteikosta]] ja käyttötarkoituksesta riippuen. Tavallisesti korrelaatiolla tarkoitetaan Pearsonin korrelaatiokerrointa. Nimestä huolimatta sen esitti ensimmäisenä [[Francis Galton]]. Jos tarkasteltavat muuttujat on mitattu vain [[järjestysasteikko|järjestysasteikolla]], niin silloin korrelaation mittaamiseen soveltuu paremmin jokin [[ei-parametrinen]] korrelaatiokerroin.
Rivi 15 ⟶ 17:
[[Image:Correlation examples.png|thumb|400px|right|Useita (''x'', ''y'')-parien pistejoukkoja sekä kunkin joukon ''x''- ja ''y''-koordinaattien korrelaatiokerroin. Korrelaatio heijastaa lineaarisen riippuvuuden suuntaa ja kohinaisuutta (hajontaa), kuten ylärivi kuvaa, muttei kulmakerrointa, kuten keskirivi kuvaa, eikä mitään epälineaarista riippuvuutta, kuten alarivi kuvaa. Huomaa, että keskimmäisen kuvaajan kulmakerroin on nolla mutta korrelaatiokerrointa ("0/0") ei voi laskea.]]
 
Korrelaatio mittaa ainoastaan lineaarista riippuvuutta, siis kertoo siitä, jos ensimmäisen muuttujan (x) suuret arvot ovat pieniä arvoja enemmän yhteydessä toisen muuttujan (y) suuriin arvoihin (tai päinvastoin pieniin arvoihin). Se on sitä lähempänä lukua 1 tai -1, mitä lähempänä kuvaaja on jotain suoraa ''y=a+bx'' (kuten oheisen kuvan ensimmäisellä rivillä; ''b'':n etumerkki määrää korrelaatin etumerkin).
 
Jos riippuvuus on ei-lineaarinen, esimerkiksi suuret ja pienet x:n arvot liittyvät suuriin y:n arvoihin mutta keskisuuret x:n arvot pieniin (esimerkiksi käyrä ''y=x<sup>2</sup>'' välillä [-10,+10]), korrelaatio voi olla nolla vaikka riippuvuus olisi täydellinen niin, että x:n arvosta voitaisiin täydellisesti päätellä y:n arvo.
 
Oheisen kuvan alimman rivin pistejoukoissa selvästi muuttujien ''y'' ja ''x'' arvojen välillä on yhteys, riippuvuus, vaikka riippuvuus ei olekaan lineaarinen, suuret ''x'':n arvot eivät ole suuriin ''y'':n arvoihin yhteydessä sen useammin kuin pienetkään. Silti tieto ''x'':n arvosta auttaa niissäkin veikkaamaan ''y'':n arvoa.
Rivi 58 ⟶ 60:
==Ei-parametriset korrelaatiokertoimet==
 
Pearsonin korrelaatiokerroin on parametrinen tunnusluku ja vähemmän hyödyllinen, jos taustalla oleva normaalisuusoletus ei päde. [[ei-parametrinen|Ei-parametriset]] korrelaatiokertoimet ovat tällöin parempia korrelaation laskemiseen. Ne ovat vähemmän tehokkaita normaalisuusoletuksen vallitessa, mutta antavat epäselvissä tapauksissa luotettavampia tuloksia.
 
Seuraavat menetelmät perustuvat lukujen järjestykseen, joten niitä voi käyttää myös silloin, kun muuttujat on mitattu järjestysasteikolla: