Spearmanin järjestyskorrelaatiokerroin

ei-parametrinen tilastollisen riippuvuuden mitta

Spearmanin järjestyskorrelaatiokerroin, eli Spearmanin rho, on ei-parametrinen (jakaumasta riippumaton) tilastollisen riippuvuuden mitta, jota käytetään tutkittavien muuttujien välisen korrelaation mittaamiseen. Tunnusluku on saanut nimensä kehittäjänsä Charles Spearmanin mukaan.

Spearmanin järjestyskorrelaatiokertoimeksi saadaan 1 mikäli tutkittavat kaksi muuttujaa riippuvat toisistaan monotonisesti. Spearmanin kerroin voi saada arvon 1 vaikka muuttujien välillä ei ole lineaarista riippuvuutta. Toisaalta, Pearsonin korrelaatiokerroin ei ole 1, koska tutkittavien muuttujien suhde ei ole täysin lineaarinen.
Kun parametrien välillä ei ole suuria poikkeamia, sekä Spearmanin että Pearsonin korrelaatiotesteillä saadaan yhtä suuret korrelaatiokertoimet.
Spearmanin korrelaatiokerroimeksi saatiin 0.84, kun taas Pearsonin korrelaatiokertoimeksi 0.67. Spearmanin järjestyskorrelaatio ei ole yhtä herkkä havaintoarvojen suurille poikkeamille kuin Pearsonin korrelaatio, johtuen siitä että Spearmanin korrelaatiossa havaintojen arvot korvataan järjestysluvuilla, jolloin suuret poikkeavuudet eliminoidaan.
Spearmanin jarjestyskorrelaatiokertoimen kriittiset
rajat eri merkitsevyystasoilla
n 0.1 0.05 0.025 0.01 0.005
4 1.0000 1.0000 1.0000 1.0000 1.0000
5 0.7000 0.9000 0.9000 1.0000 1.0000
6 0.6571 0.7714 0.8286 0.9429 0.9429
7 0.5714 0.6786 0.7857 0.8571 0.8929
8 0.5476 0.6429 0.7381 0.8095 0.8571
9 0.4833 0.6000 0.6833 0.7667 0.8167
10 0.4424 0.5636 0.6485 0.7333 0.7818
11 0.4182 0.5273 0.6091 0.7000 0.7545
12 0.3986 0.5035 0.5874 0.6713 0.7273
13 0.3791 0.4780 0.5604 0.6484 0.6978
14 0.3670 0.4593 0.5385 0.6220 0.6747
15 0.3500 0.4429 0.5179 0.6000 0.6536
16 0.3382 0.4265 0.5029 0.5824 0.6324
17 0.3271 0.4124 0.4821 0.5577 0.6055
18 0.3170 0.4000 0.4683 0.5425 0.5897
19 0.3077 0.3887 0.4555 0.5285 0.5751
20 0.2992 0.3783 0.4438 0.5155 0.5614
21 0.2914 0.3687 0.4329 0.5034 0.5487
22 0.2841 0.3598 0.4227 0.4921 0.5368
23 0.2774 0.3515 0.4132 0.4815 0.5256
24 0.2711 0.3438 0.4044 0.4716 0.5151
25 0.2653 0.3365 0.3961 0.4622 0.5052
26 0.2598 0.3297 0.3882 0.4534 0.4958
27 0.2546 0.3233 0.3809 0.4451 0.4869
28 0.2497 0.3172 0.3739 0.4372 0.4785
29 0.2451 0.3115 0.3673 0.4297 0.4705
30 0.2407 0.3061 0.3610 0.4226 0.4629

Spearmanin järjestyskorrelaatiokerroin ei reagoi parametrien suuriin poikkeamiin yhtä voimakkaasti kuin esimerkiksi Pearsonin korrelaatiotesti. Spearmanin korrelaatiotestissä täydellistä positiivista korrelaatiota vastaa luku 1 ja täydellistä negatiivista korrelaatiota luku -1. [1]

Määritelmä

muokkaa

Spearmanin järjestyskorrelaatiokertoimen laskemiseksi tarvitaan jokin havaintoaineisto. Olkoon tutkittavina muuttujina   ja   satunnaismuuttujia, joiden havainnot ovat toisistaan riippumattomia. Tällöin havaintoaineisto koostuu muuttujan x havaittujen arvojen   ja vastaavasti muuttujan y havaittujen arvojen   muodostamista pareista  .

Muuttujien havaitut arvot järjestetään suuruusjärjestykseen pienimmästä suurimpaan ja arvoihin liitetään järjestysnumerot:

  = havainnon   järjestysnumero
  = havainnon   järjestysnumero [2]

Jos keskenään yhtäsuuria havaintoja ei ole ja järjestysluvut ovat täten kaikki erillisiä kokonaislukuja, niin Spearmanin järjestyskorrelaatiokerroin lasketaan kaavalla

 

missä  . [2]

Spearmanin järjestyskorrelaatiokerroin,  , voi saada arvoja väliltä +1 ja -1. Kertoimen arvon ollessa lähellä arvoa +1 muuttujien välillä vallitsee voimakas positiivinen riippuvuus. Tämä tarkoittaa, että toisen muuttujan arvon kasvaessa myös toisen muuttujan arvo kasvaa. Vastaavasti korrelaatiokertoimen arvon ollessa lähellä arvoa -1 vallitsee muuttujien välillä voimakas negatiivinen riippuvuus. Tällöin toisen muuttujan arvon kasvaessa toisen muuttujan arvo pienenee. Korrelaatiokertoimen arvon lähestyessä arvoa 0 muuttujien keskinäinen riippuvuus vähenee. Kertoimen arvo 0 merkitsee, ettei lineaarista riippuvuutta ole. [3]

Täytyy muistaa, että Spearmanin järjestyskorrelaatiokerrointa, kuten muitakin korrelaatioanalyysin mittoja, käytetään pääasiassa mittaamaan kahden eri muuttujan lineaarisen yhteyden voimakkuutta. Se ei siis kerro selitettävän ja selittävän muuttujien välisestä kausaalisesta yhteydestä.

Merkitsevyyden testaaminen

muokkaa

Tilastollisen merkitsevyystason testaamisella pyritään tutkimaan ja mahdollisesti sulkemaan pois sattuman vaikutus kahden muuttujan väliseen riippuvuuteen. Korrelaatiokertoimen p-arvo, eli todennäköisyys havaita vähintään näin poikkeavia testisuureen arvoja nollahypoteesin ollessa totta, voidaan laskea seuraavan testisuureen avulla. [4]


 

missä   noudattaa Studentin t-jakaumaa vapausastein  . [4]

Esimerkki

muokkaa

Olkoon, että halutaan tutkia erään kalalajin massan yhteyttä sen pituuteen, eli korreloiko kalan massa sen pituuteen. Alla olevaan taulukkoon on kerätty satunnaisesti havaintoaineisto, joka koostuu kymmenestä massan ja pituuden muodostamista pareista.

Massa (g),   Pituus (cm),  
70 17
120 22
90 20
140 23
120 24
110 22
100 20
90 19
100 21
80 16

Seuraavaksi tulee järjestää jokaisen sarakkeen tutkimusaineisto pienimmästä luvusta suurimpaan ja antaa jokaiselle vastaava järjestysluku. Sarakkeen   viereen luodaan uusi sarake  , johon tulee havainnon   järjestysnumero. Vastaavasti sarakkeen   havaintojen järjestysnumeroille luodaan sarake  . Mikäli kahden tai useamman aineiston järjestysluku on sama, tällöin niille tulee antaa niiden varaamien järjestyslukujen keskiarvo. Taulukossa nähdään, että  -sarakkeessa luku 90 toistuu kahdesti. Luku 90 on kyseisessä sarakkeessa kolmanneksi pienin luku, mutta koska se toistuu kahdesti, se on varannut sijat 3 ja 4. Tällöin tulee luvulle 90 annetaan järjestysluvuksi järjestyslukujen 3 ja 4 keskiarvo. Samoten luku 100 on toistunut kahdesti. Koska se on varannut sijat 5 ja 6, tulee sen järjestysluvuksi 5.5. Sama tapa on toistettu muiden toistuvien lukujen tapauksessa. Mikäli luku toistuu kolmesti, järjestysluvuksi annetaan tällöin sen kolmen varaaman sijan keskiarvo. [5]

Massa (g),   Pituus (cm),      
70 17 1 2
120 22 8.5 7.5
90 20 3.5 4.5
140 23 10 9
120 24 8.5 10
110 22 7 7.5
100 20 5.5 4.5
90 19 3.5 3
100 21 5.5 6
80 16 2 1

Lopuksi täytyy vielä laskea järjestyslukujen erotus  . Luodaan uusi sarake  , johon tulee jokaisen rivin järjestyslukujen erotus, sekä myös sarake  , jossa erotus korotetaan toiseen.

Massa (g),   Pituus (cm),          
70 17 1 2 -1 1
120 22 8.5 7.5 1 1
90 20 3.5 4.5 -1 1
140 23 10 9 1 1
120 24 8.5 10 -1.5 2.25
110 22 7 7.5 -0.5 0.25
100 20 5.5 4.5 1 1
90 19 3.5 3 0.5 0.25
100 21 5.5 6 -0.5 0.25
80 16 2 1 1 1

Summaamalla sarakkeen   kaikki alkiot yhteen saadaan,

 

Nyt voidaan laskea Spearmanin järjestyskorrelaatiokerroin,

 

Saatiin siis Spearmanin järjestyskorrelaatiokertoimeksi  . Voidaan sanoa, että tämän kalalajin massan ja pituuden välillä vallitsee voimakas positiivinen korrelaatio, eli pituuden kasvaessa myös massa kasvaa.

Testataan seuraavaksi saatua korrelaatiokerrointa 5%:n merkitsevyystasolla. Olkoon nollahypoteesi  , että pituuden ja massan välillä ei ole riippuvuutta. Vaihtoehtoisena hypoteesina   olkoon, että pituuden ja massan välillä on korrelaatio, oli se sitten positiivinen tai negatiivinen. Tällöin vaihtoehtoinen hypoteesi on kaksisuuntainen. Eli asetelma on

 
 

Lasketaan testisuure,

 

Testisuure   noudattaa Studentin t-jakaumaa vapausastein  . Testisuuretta vastaava p-arvo lasketaan jakaumasta   ja, koska vaihtoehtoinen hypoteesi on kaksisuuntainen, testisuureen arvoa vastaava p-arvo on

 

Laskettu p-arvo 0.002% on paljon pienempi kuin asetettu 5% ja tällöin nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi jää voimaan. Spearmanin järjestyskorrelaatiokertoimen merkitsevyyttä voidaan tutkia myös kriittisten arvojen avulla. Esimerkiksi kaksisuuntaisessa testissä merkitsevyystason ollessa 5% ja n=10, korrelaatiokertoimen on oltava vähintään 0.6485 jotta se jäisi voimaan. [6]

Vertailua

muokkaa

Spearmanin järjestyskorrelaatiokerroin on Pearsonin korrelaatiokertoimen erityistapaus. Spearmanin järjestyskorrelaatiossa mitattavien muuttujien arvot on korvattu järjestysluvuilla. Spearmanin järjestyskorrelaatio ei reagoi parametrien poikkeamille lineaarisuudesta yhtä voimakkaasti kuin Pearsonin korrelaatiotesti, koska Spearmanin järjestyskorrelaatio mittaa kahden satunnaismuuttujan välistä monotonista riippuvuutta. Pienen hajonnan omaavien muuttujien osalta molemmat korrelaatioanalyysit antavat lähes samanlaiset arvot. [1] [5]

Pearsonin korrelaatio perustuu normaalisuusoletukseen, kun taas Spearmanin järjestyskorrelaatio ei, koska se on ei-parametrinen.

Eräs toinen ei-parametrinen menetelmä on Kendallin järjestyskorrelaatiokerroin (Kendallin tau). Kun aineiston normaalisuudesta on epävarmuutta, on parempi käyttää Kendallin tai Spearmanin järjestyskorrelaatiokerrointa. Sekä Kendallin että Spearmanin järjestyskorrelaatiokerroin sopivat järjestys-, välimatka- ja suhdeasteikollisille muuttujille[2].

Lähteet

muokkaa
  1. a b Hauke, Jan, and Tomasz Kossowski. "Comparison of values of Pearson's and Spearman's correlation coefficients on the same sets of data." Quaestiones geographicae 30, no. 2 (2011): 87-93.
  2. a b c Mellin, Ilkka. “Tilastolliset menetelmät: Kaavat”, Teknillinen korkeakoulu, 2007
  3. Heikkilä, Tarja. "Tilastollinen tutkimus". 7 uudistettu painos. Edita Prima Oy, 2008.
  4. a b Press, William H., Brian P. Flannery, Saul A. Teukolsky, and William T. Vetterling. "Numerical recipes." (1990).
  5. a b Ilmonen, Pauliina ja Virtanen, Kai. "Tilastollisen analyysin perusteet". Kurssin MS-C2104 luentokalvot. Aalto Yliopisto, 2015.
  6. Ramsey, P. H. (1989)." Critical values for Spearman’s rank order correlation". Journal of Educational Statistics, 14(3), 245–253.