Spearmanin järjestyskorrelaatiokerroin
Spearmanin järjestyskorrelaatiokerroin, eli Spearmanin rho, on ei-parametrinen (jakaumasta riippumaton) tilastollisen riippuvuuden mitta, jota käytetään tutkittavien muuttujien välisen korrelaation mittaamiseen. Tunnusluku on saanut nimensä kehittäjänsä Charles Spearmanin mukaan.
n | 0.1 | 0.05 | 0.025 | 0.01 | 0.005 |
---|---|---|---|---|---|
4 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | 1.0000 |
5 | 0.7000 | 0.9000 | 0.9000 | 1.0000 | 1.0000 |
6 | 0.6571 | 0.7714 | 0.8286 | 0.9429 | 0.9429 |
7 | 0.5714 | 0.6786 | 0.7857 | 0.8571 | 0.8929 |
8 | 0.5476 | 0.6429 | 0.7381 | 0.8095 | 0.8571 |
9 | 0.4833 | 0.6000 | 0.6833 | 0.7667 | 0.8167 |
10 | 0.4424 | 0.5636 | 0.6485 | 0.7333 | 0.7818 |
11 | 0.4182 | 0.5273 | 0.6091 | 0.7000 | 0.7545 |
12 | 0.3986 | 0.5035 | 0.5874 | 0.6713 | 0.7273 |
13 | 0.3791 | 0.4780 | 0.5604 | 0.6484 | 0.6978 |
14 | 0.3670 | 0.4593 | 0.5385 | 0.6220 | 0.6747 |
15 | 0.3500 | 0.4429 | 0.5179 | 0.6000 | 0.6536 |
16 | 0.3382 | 0.4265 | 0.5029 | 0.5824 | 0.6324 |
17 | 0.3271 | 0.4124 | 0.4821 | 0.5577 | 0.6055 |
18 | 0.3170 | 0.4000 | 0.4683 | 0.5425 | 0.5897 |
19 | 0.3077 | 0.3887 | 0.4555 | 0.5285 | 0.5751 |
20 | 0.2992 | 0.3783 | 0.4438 | 0.5155 | 0.5614 |
21 | 0.2914 | 0.3687 | 0.4329 | 0.5034 | 0.5487 |
22 | 0.2841 | 0.3598 | 0.4227 | 0.4921 | 0.5368 |
23 | 0.2774 | 0.3515 | 0.4132 | 0.4815 | 0.5256 |
24 | 0.2711 | 0.3438 | 0.4044 | 0.4716 | 0.5151 |
25 | 0.2653 | 0.3365 | 0.3961 | 0.4622 | 0.5052 |
26 | 0.2598 | 0.3297 | 0.3882 | 0.4534 | 0.4958 |
27 | 0.2546 | 0.3233 | 0.3809 | 0.4451 | 0.4869 |
28 | 0.2497 | 0.3172 | 0.3739 | 0.4372 | 0.4785 |
29 | 0.2451 | 0.3115 | 0.3673 | 0.4297 | 0.4705 |
30 | 0.2407 | 0.3061 | 0.3610 | 0.4226 | 0.4629 |
Spearmanin järjestyskorrelaatiokerroin ei reagoi parametrien suuriin poikkeamiin yhtä voimakkaasti kuin esimerkiksi Pearsonin korrelaatiotesti. Spearmanin korrelaatiotestissä täydellistä positiivista korrelaatiota vastaa luku 1 ja täydellistä negatiivista korrelaatiota luku -1. [1]
Määritelmä
muokkaaSpearmanin järjestyskorrelaatiokertoimen laskemiseksi tarvitaan jokin havaintoaineisto. Olkoon tutkittavina muuttujina ja satunnaismuuttujia, joiden havainnot ovat toisistaan riippumattomia. Tällöin havaintoaineisto koostuu muuttujan x havaittujen arvojen ja vastaavasti muuttujan y havaittujen arvojen muodostamista pareista .
Muuttujien havaitut arvot järjestetään suuruusjärjestykseen pienimmästä suurimpaan ja arvoihin liitetään järjestysnumerot:
- = havainnon järjestysnumero
- = havainnon järjestysnumero [2]
Jos keskenään yhtäsuuria havaintoja ei ole ja järjestysluvut ovat täten kaikki erillisiä kokonaislukuja, niin Spearmanin järjestyskorrelaatiokerroin lasketaan kaavalla
missä . [2]
Spearmanin järjestyskorrelaatiokerroin, , voi saada arvoja väliltä +1 ja -1. Kertoimen arvon ollessa lähellä arvoa +1 muuttujien välillä vallitsee voimakas positiivinen riippuvuus. Tämä tarkoittaa, että toisen muuttujan arvon kasvaessa myös toisen muuttujan arvo kasvaa. Vastaavasti korrelaatiokertoimen arvon ollessa lähellä arvoa -1 vallitsee muuttujien välillä voimakas negatiivinen riippuvuus. Tällöin toisen muuttujan arvon kasvaessa toisen muuttujan arvo pienenee. Korrelaatiokertoimen arvon lähestyessä arvoa 0 muuttujien keskinäinen riippuvuus vähenee. Kertoimen arvo 0 merkitsee, ettei lineaarista riippuvuutta ole. [3]
Täytyy muistaa, että Spearmanin järjestyskorrelaatiokerrointa, kuten muitakin korrelaatioanalyysin mittoja, käytetään pääasiassa mittaamaan kahden eri muuttujan lineaarisen yhteyden voimakkuutta. Se ei siis kerro selitettävän ja selittävän muuttujien välisestä kausaalisesta yhteydestä.
Merkitsevyyden testaaminen
muokkaaTilastollisen merkitsevyystason testaamisella pyritään tutkimaan ja mahdollisesti sulkemaan pois sattuman vaikutus kahden muuttujan väliseen riippuvuuteen. Korrelaatiokertoimen p-arvo, eli todennäköisyys havaita vähintään näin poikkeavia testisuureen arvoja nollahypoteesin ollessa totta, voidaan laskea seuraavan testisuureen avulla. [4]
missä noudattaa Studentin t-jakaumaa vapausastein . [4]
Esimerkki
muokkaaOlkoon, että halutaan tutkia erään kalalajin massan yhteyttä sen pituuteen, eli korreloiko kalan massa sen pituuteen. Alla olevaan taulukkoon on kerätty satunnaisesti havaintoaineisto, joka koostuu kymmenestä massan ja pituuden muodostamista pareista.
Massa (g), | Pituus (cm), |
---|---|
70 | 17 |
120 | 22 |
90 | 20 |
140 | 23 |
120 | 24 |
110 | 22 |
100 | 20 |
90 | 19 |
100 | 21 |
80 | 16 |
Seuraavaksi tulee järjestää jokaisen sarakkeen tutkimusaineisto pienimmästä luvusta suurimpaan ja antaa jokaiselle vastaava järjestysluku. Sarakkeen viereen luodaan uusi sarake , johon tulee havainnon järjestysnumero. Vastaavasti sarakkeen havaintojen järjestysnumeroille luodaan sarake . Mikäli kahden tai useamman aineiston järjestysluku on sama, tällöin niille tulee antaa niiden varaamien järjestyslukujen keskiarvo. Taulukossa nähdään, että -sarakkeessa luku 90 toistuu kahdesti. Luku 90 on kyseisessä sarakkeessa kolmanneksi pienin luku, mutta koska se toistuu kahdesti, se on varannut sijat 3 ja 4. Tällöin tulee luvulle 90 annetaan järjestysluvuksi järjestyslukujen 3 ja 4 keskiarvo. Samoten luku 100 on toistunut kahdesti. Koska se on varannut sijat 5 ja 6, tulee sen järjestysluvuksi 5.5. Sama tapa on toistettu muiden toistuvien lukujen tapauksessa. Mikäli luku toistuu kolmesti, järjestysluvuksi annetaan tällöin sen kolmen varaaman sijan keskiarvo. [5]
Massa (g), | Pituus (cm), | ||
---|---|---|---|
70 | 17 | 1 | 2 |
120 | 22 | 8.5 | 7.5 |
90 | 20 | 3.5 | 4.5 |
140 | 23 | 10 | 9 |
120 | 24 | 8.5 | 10 |
110 | 22 | 7 | 7.5 |
100 | 20 | 5.5 | 4.5 |
90 | 19 | 3.5 | 3 |
100 | 21 | 5.5 | 6 |
80 | 16 | 2 | 1 |
Lopuksi täytyy vielä laskea järjestyslukujen erotus . Luodaan uusi sarake , johon tulee jokaisen rivin järjestyslukujen erotus, sekä myös sarake , jossa erotus korotetaan toiseen.
Massa (g), | Pituus (cm), | ||||
---|---|---|---|---|---|
70 | 17 | 1 | 2 | -1 | 1 |
120 | 22 | 8.5 | 7.5 | 1 | 1 |
90 | 20 | 3.5 | 4.5 | -1 | 1 |
140 | 23 | 10 | 9 | 1 | 1 |
120 | 24 | 8.5 | 10 | -1.5 | 2.25 |
110 | 22 | 7 | 7.5 | -0.5 | 0.25 |
100 | 20 | 5.5 | 4.5 | 1 | 1 |
90 | 19 | 3.5 | 3 | 0.5 | 0.25 |
100 | 21 | 5.5 | 6 | -0.5 | 0.25 |
80 | 16 | 2 | 1 | 1 | 1 |
Summaamalla sarakkeen kaikki alkiot yhteen saadaan,
Nyt voidaan laskea Spearmanin järjestyskorrelaatiokerroin,
Saatiin siis Spearmanin järjestyskorrelaatiokertoimeksi . Voidaan sanoa, että tämän kalalajin massan ja pituuden välillä vallitsee voimakas positiivinen korrelaatio, eli pituuden kasvaessa myös massa kasvaa.
Testataan seuraavaksi saatua korrelaatiokerrointa 5%:n merkitsevyystasolla. Olkoon nollahypoteesi , että pituuden ja massan välillä ei ole riippuvuutta. Vaihtoehtoisena hypoteesina olkoon, että pituuden ja massan välillä on korrelaatio, oli se sitten positiivinen tai negatiivinen. Tällöin vaihtoehtoinen hypoteesi on kaksisuuntainen. Eli asetelma on
Lasketaan testisuure,
Testisuure noudattaa Studentin t-jakaumaa vapausastein . Testisuuretta vastaava p-arvo lasketaan jakaumasta ja, koska vaihtoehtoinen hypoteesi on kaksisuuntainen, testisuureen arvoa vastaava p-arvo on
Laskettu p-arvo 0.002% on paljon pienempi kuin asetettu 5% ja tällöin nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi jää voimaan. Spearmanin järjestyskorrelaatiokertoimen merkitsevyyttä voidaan tutkia myös kriittisten arvojen avulla. Esimerkiksi kaksisuuntaisessa testissä merkitsevyystason ollessa 5% ja n=10, korrelaatiokertoimen on oltava vähintään 0.6485 jotta se jäisi voimaan. [6]
Vertailua
muokkaaSpearmanin järjestyskorrelaatiokerroin on Pearsonin korrelaatiokertoimen erityistapaus. Spearmanin järjestyskorrelaatiossa mitattavien muuttujien arvot on korvattu järjestysluvuilla. Spearmanin järjestyskorrelaatio ei reagoi parametrien poikkeamille lineaarisuudesta yhtä voimakkaasti kuin Pearsonin korrelaatiotesti, koska Spearmanin järjestyskorrelaatio mittaa kahden satunnaismuuttujan välistä monotonista riippuvuutta. Pienen hajonnan omaavien muuttujien osalta molemmat korrelaatioanalyysit antavat lähes samanlaiset arvot. [1] [5]
Pearsonin korrelaatio perustuu normaalisuusoletukseen, kun taas Spearmanin järjestyskorrelaatio ei, koska se on ei-parametrinen.
Eräs toinen ei-parametrinen menetelmä on Kendallin järjestyskorrelaatiokerroin (Kendallin tau). Kun aineiston normaalisuudesta on epävarmuutta, on parempi käyttää Kendallin tai Spearmanin järjestyskorrelaatiokerrointa. Sekä Kendallin että Spearmanin järjestyskorrelaatiokerroin sopivat järjestys-, välimatka- ja suhdeasteikollisille muuttujille[2].
Lähteet
muokkaa- ↑ a b Hauke, Jan, and Tomasz Kossowski. "Comparison of values of Pearson's and Spearman's correlation coefficients on the same sets of data." Quaestiones geographicae 30, no. 2 (2011): 87-93.
- ↑ a b c Mellin, Ilkka. “Tilastolliset menetelmät: Kaavat”, Teknillinen korkeakoulu, 2007
- ↑ Heikkilä, Tarja. "Tilastollinen tutkimus". 7 uudistettu painos. Edita Prima Oy, 2008.
- ↑ a b Press, William H., Brian P. Flannery, Saul A. Teukolsky, and William T. Vetterling. "Numerical recipes." (1990).
- ↑ a b Ilmonen, Pauliina ja Virtanen, Kai. "Tilastollisen analyysin perusteet". Kurssin MS-C2104 luentokalvot. Aalto Yliopisto, 2015.
- ↑ Ramsey, P. H. (1989)." Critical values for Spearman’s rank order correlation". Journal of Educational Statistics, 14(3), 245–253.