Moni-imputointi

Moni-imputointi on menetelmä, jonka avulla voidaan paikata puuttuvaa tietoa. Tiedon puuttuminen on suhteellisen yleistä, koska esimerkiksi kyselytutkimuksissa vastauksia ei saada jokaiselta otoksen tilastoyksiköltä tai kaikki vastanneet eivät vastaa tutkimuksen jokaiseen kysymykseen. Datan analysoinnin kannalta tällainen puuttuva tieto voi olla ongelmallista, koska vastaamattomuus saattaa olla satunnaisen puuttumisen sijaan systemaattista. Tulokset voivat olla harhaisia, sillä kyselyyn vastanneet saattavat poiketa niistä, jotka eivät ole jostain syystä vastanneet.^[1] Puuttuvaa tietoa voidaan kuitenkin imputoida sen sijaan, että käytettäisiin pelkästään havaittuja arvoja tai vain täydellisiä havaintorivejä.^[2] Moni-imputointi kannattaa, koska se on yleensä tehokkaampi menetelmä kuin täydellisten havaintorivien käyttö.^[2]

Imputointi

Tilastotieteessä imputointi on puuttuvien havaintojen paikkaamista. Ns. kunnollinen imputointi mahdollistaa aineiston pohjalta tehtävän validin tilastollisen päättelyn.^[3] Imputointi ei kuitenkaan ole ennustamista. Lähtökohtana on epätäydellinen data, josta saadaan monta uutta imputoitua dataa, joissa puuttuvat arvot on korvattu joillakin datan suhteen uskottavilla arvoilla, mutta havaitut arvot pysyvät ennallaan.^[2] Usein esimerkiksi viisi uutta dataa riittää.^[1]

Kiinnostavat parametrit estimoidaan sitten jokaisesta imputoimalla saadusta täydellisestä datasta. Jokaista saatua uutta aineistoa käsitellään kuten täydellistä dataa. Imputointiin liittyy kuitenkin epävarmuutta, jonka vuoksi tulokset poikkeavat toisistaan joka datassa, ja siten ne eroavat myös alkuperäisestä täydellisestä datasta. Lopuksi imputoitujen aineistojen parametrien estimaatit poolataan yhdeksi estimaatiksi. Myös varianssi estimoidaan.^[2] Moni-imputointikeskiarvon ja sen varianssin voi laskea ns. Rubinin kaavoilla.

Imputointi on kannattaa tehdä jotakin ohjelmistoa, kuten R, SAS, Stata tai SPSS, käyttäen. R:ssä imputoinnin voi tehdä esimerkiksi mice-paketin avulla.^[2]

Rubinin kaavat

Moni-imputoitujen aineistojen tulokset voidaan yhdistää Rubinin kaavoja käyttäen:

Moni-imputointikeskiarvo:

${\bar {\theta }}_{D}={\frac {1}{D}}\sum _{d=i}^{D}{\hat {\theta }}_{d}$ ,

jossa ${\hat {\theta }}_{d}$ on kiinnostuksen kohteena olevan parametrin piste-estimaatti ja $D$ imputoitujen aineistojen lukumäärä.

Varianssi moni-imputointikeskiarvolle:

${\hat {T}}_{D}={\frac {1}{D}}\sum _{d=i}^{D}{\hat {W}}_{d}+{\frac {D+1}{D(D-1)}}\sum _{d=i}^{D}\left({\hat {\theta }}_{d}-{\bar {\theta }}_{D}\right)^{2}$ ,

jossa ${\hat {W}}_{d}$ varianssi imputoidussa otoksessa.^[1]

Imputointi keskiarvon avulla

Puuttuvat havainnot voi korvata esimerkiksi aineiston keskiarvolla, mutta tätä tulisi välttää. Keskiarvoimputointi toiminee vain hätäapuna tapauksissa, joissa ainoastaan muutama havainto puuttuu. Imputoiminen keskiarvolla aliestimoi varianssia, vääristää muuttujien suhdetta, ja aiheuttaa estimaattien harhaa puuttuvuuden ollessa täysin satunnaista (MCAR).^[2] Moni-imputointiin keskiarvoimputointia ei voi käyttää, koska jokainen imputoitu aineisto olisi kuitenkin samanlainen.

Imputointi regressiota käyttäen

Regressioimputointi tuottaa harhattomia estimaatteja keskiarvolle, mikäli puuttuvuus on täysin satunnaista (MCAR). Aluksi havaitusta datasta rakennetaan malli, jonka sovitteesta lasketut ennusteet korvaavat puuttuvat havainnot. Stokastinen regressioimputointi on hienostuneempi versio regressioimputoinnista.

Numeerinen esimerkki

Oletetaan, että $X$ ja $Y$ ovat satunnaisotoksia populaatiosta, mutta osa $Y$ :n havainnoista puuttuu. Tavoitteena on estimoida ${\overline {Y}}$ .

$Y$	$X$
10	8
?	9
14	11
?	13
16	16
15	18
20	6
4	4
18	20
22	25

$Y$ :n puuttuvat havainnot voidaan imputoida esimerkiksi ottamalla huomioon kaksi lähintä arvoa. Tässä arvot 10 ja 14 ovat lähimpänä ensimmäistä puuttuvaa havaintoa ja arvot 14 ja 16 lähimpänä toista puuttuvaa havaintoa. Nyt $Y$ :n ensimmäisen puuttuvan arvon tilalle arvotaan jompi kumpi näistä kahdesta havaituista arvosta. Tässä yksinkertaisessa tekaistussa esimerkissä imputointi tehdään vain kaksi kertaa.

Oletetaan, että ensimmäisellä imputointikerralla ensimmäisen puuttuvan havainnon arvoksi saadaan 10 ja toisella kerralla 14. Toiselle puuttuvalle havainnolle arvonta suoritetaan vastaavasti, ja saadaan arvot 16 ja 14. Ensimmäinen imputoitu aineisto on siten:

$Y$	$X$
10	8
10	9
14	11
16	13
16	16
15	18
20	6
4	4
18	20
22	25

Toisen imputoidun aineiston ollessa:

$Y$	$X$
10	8
14	9
14	11
14	13
16	16
15	18
20	6
4	4
18	20
22	25

Nyt ensimmäisen imputoidun aineiston ${\overline {y}}$ =14.5 ja toisen aineiston ${\overline {y}}$ =14.7.

Estimaatti (engl. ratio estimator) saadaan laskettua kaavalla ${\overline {X}}{\overline {y}}/{\overline {x}}$ . Oletetaan nyt, että populaatiokeskiarvo ${\overline {X}}$ tunnetaan, ja se on 12. Aivan ensimmäisenä imputoidun aineiston estimaatiksi saadaan siten (12*14.5)/13=13.38, toisen vastaavasti (12*14.7)/13 =13.57.

Piste-estimaatin varianssi lasketaan kaavalla $SD^{2}/n$ , jossa $SD^{2}={\Sigma }_{i}(Y_{i}-X_{i}{\overline {y}}/{\overline {x}})^{2}/(n-1)$ . Tässä esimerkissä otoskoko n on 10. Nyt ensimmäisen imputoidun datan piste-estimaatin varianssiksi saadaan siis 2.96 ja toisen 3.19.^[1]

R:llä piste-estimaatin varianssin voi laskea esimerkiksi seuraavalla tavalla:

y <- c(10,10,14,16,16,15,20,4,18,22)

x <- c(8,9,11,13,16,18,6,4,20,25)

n <- length(x)

sum(((y-x*mean(y)/mean(x))^2/(n-1)))/n

Imputoiduista datoista saadut tulokset voidaan nyt yhdistää Rubinin kaavoilla:

D <-2

Moni-imputointikeskiarvo:

theta <-1/D*(13.38+13.57)

ja sen varianssi:

1/D*(2.96+3.19)+((D+1)/(D*(D-1)))*((13.38-theta)^2+(13.57-theta)^2)

Moni-imputointikeskiarvoksi saadaan siten 13.48 ja sen varianssiksi 3.10.

Laskimella saman voi laskea seuraavasti:

Piste-estimaatin varianssi ensimmäiselle imputoidulle aineistolle:

(((10-8*(14.5/13))^2 + (10-9*(14.5/13))^2 + (14-11*(14.5/13))^2 + (16-13*(14.5/13))^2 + (16-16*(14.5/13))^2 +(15-18*(14.5/13))^2 + (20-6*(14.5/13))^2 + (4-4*(14.5/13))^2 + (18-20*(14.5/13))^2 + (22-25*(14.5/13))^2)/9)/10.

Moni-imputointikeskiarvo:

0.5*(13.38+13.57)

ja sen varianssi:

0.5*(2.96+3.19)+(3/2)*((13.38-14.6)^2+(13.57-14.6)^2)

Lähteet

↑ ^a ^b ^c ^d Rubin, Donald B. (1987). Multiple Imputation for Nonresponse in Surveys. John Wiley & Sons. New York.
↑ ^a ^b ^c ^d ^e ^f Buuren, Stef van (2012). Flexible Imputation of Missing data. Chapman & Hall/CRC.
↑ "http://www.stefvanbuuren.nl/mi/MI.html. Multiple imputation. Buuren, Stef van. Viitattu 21.4.2014.

[viite2-1] Rubin, Donald B. (1987). Multiple Imputation for Nonresponse in Surveys. John Wiley & Sons. New York.

[viite1-2] ↑ ^a ^b ^c ^d ^e ^f Buuren, Stef van (2012). Flexible Imputation of Missing data. Chapman & Hall/CRC.

[viite3-3] "http://www.stefvanbuuren.nl/mi/MI.html. Multiple imputation. Buuren, Stef van. Viitattu 21.4.2014.

[1]

[2]

[3]