Ero sivun ”Yleistetty lineaarinen malli” versioiden välillä

[katsottu versio][katsottu versio]
Poistettu sisältö Lisätty sisältö
MMursu (keskustelu | muokkaukset)
pEi muokkausyhteenvetoa
p kh
Rivi 1:
'''Yleistetyt lineaariset mallit''' ({{k-en|Generalized linear models}}) on laaja [[Tilastotiede|tilastotieteen]] malliluokka, jonka avulla voidaan [[Mallintaminen|mallintaa]] erityyppisiä ja eri [[Jakauma|jakaumia]] noudattavia [[Vastemuuttuja|vastemuuttujia]]. [[Lineaarinen regressioanalyysi|Lineaarinen malli]] on yksi yleistetyn lineaarisen mallin erikoistapaus, eikä se sovi käytettäväksi kaikissa tilanteissa sen oletuksista johtuen. Esimerkiksi positiivisien vasteiden, lukumäärävasteiden ja binomisten vasteiden mallinnukseen yleisetteyyleistetty lineaarinen malli sopii lineaarista mallia paremmin. Myös epälineaariset yhteydet muuttuja muunnostenkin jälkeen saattavat koitua lineaarisen mallin ongelmaksi, koska vakio[[varianssi]]oletus ei aina ole voimassa. Yleistettyjen lineaaristen mallien muita tunnettuja erikoistapauksia ovat [[logistinen malli]] ja [[Poisson-regressio]].
 
Yleistetyt lineaariset mallit ovat siis klassisten lineaaristen mallien perheen sellainen laajennus, josta löytyy sopiva malli kaikkiin edellä olleisiin lineaarisen mallin kannalta ongelmallisiin esimerkkitilanteisiin. Yleistetyn lineaarisen mallin systemaattinen osa on edelleen lineaarinen, mutta se ei ole välttämättä suoraan ''Y''<sub>i</sub>:n [[odotusarvo]], vaan mahdollisesti joku sen tunnettu muunnos.
: <math>\operatorname{g}(\boldsymbol{\mu_i}) = \sum_{j=1}^p x_{ij} \boldsymbol{\beta_j} = \boldsymbol{\eta_i} </math>
 
Kaavassa ''g()'' on jokin [[linkkifunktio]], joka määrittää vastemuuttujan suhteen lineaariseen malliin. Linkkifunktiolle ei ole muita rajoitteita kuin, että se on monotoninen ja [[Derivointi|derivoituva]]. Linkkifunktioita ovat mm. ''g''(''µ''<sub>i</sub>) = log(''µ''<sub>i</sub>) ja ''g''(''µ''<sub>i</sub>) = 1/''µ''<sub>i</sub>.
 
Periaatteessa yleistetyt lineaariset mallit ovat läheistä sukua muunnettujen vasteiden lineaariselle mallille. Erona on se, että muunnos tehdään yleistetyissä lineaarisissa malleissa odotusarvolle eikä vastemuuttujalle. Etuna yleistettyjen lineaaristen mallien käytössä muunnettujen lineaaristen mallien sijaan on se, että varianssifunktion ei tarvitse olla vakio ja yleisesti yleistetyt lineaariset mallit tuottavat luotettavampia tuloksia.
Rivi 11:
===Mallin oletukset===
Yleistetyllä lineaarisella mallilla on kolme perusoletusta:
# Vastemuuttujan ''Y''<sub>i</sub>, ''i'' = 1,…,n jakaumat kuuluvat samaan [[Exponential family|eksponenttiperheeseen]]. Tämä toteutuu, kun [[Satunnaismuuttuja|satunnaismuuttujien]] ''Y''<sub>i</sub> tiheys[[funktio]]t voidaan kirjoittaa muodossa:
: <math> f_Y(y_i; \theta_i, \phi) = \exp{\left(\frac{a_i(y_i\theta_i-b(\theta_i))}
{\phi} +
c(y_i,\phi(1/a_i) \right)} \,\!</math> , jossa ''a''<sub>i</sub> on paino, ''Ф'' on tunnettu tai tuntematon hajontaparametri, ''θ'' on tuntematon parametri ja'' b()'' ja ''c()'' ovat tunnettuja funkioitafunktioita.
# ''Y''<sub>i</sub>:t ovat keskenään riippumattomia.
# On olemassa reaaliarvoinen monotoninen ja derivoituva linkkifunktio ''g'', joka kuvaa vastemuuttujien odotusarvot ''µ''<sub>i</sub> selittävien muuttujien arvojen lineaariseksi ennusteeksi ''η''<sub>i</sub>:
: <math>\operatorname{g}(\boldsymbol{\mu_i}) = \sum_{j=1}^p x_{ij} \boldsymbol{\beta_j} = \boldsymbol{\eta_i} </math>
 
Rivi 30:
 
===Devianssi===
Yleistetyn lineaarisen mallin [[Deviance (statistics)|devianssi]] on:
: <math> D(y; \widehat{\mu})= 2\phi(l(y;y)-l(\widehat{\mu};y)). </math>
jossa ''l(.;y)'' on odotusarvo[[vektori]]n ''µ'' ja hajontaparametrin ''Ф'' logaritminen uskottavuusfunktio ja ''l(y, Ф;y)'' on saturoidun, eli täydellisesti aineistoon sopivan mallin, uskottavuus. Skaalattu devianssi saadaan jakamalla devianssi hajontaparametrilla ''Ф''. Devianssilla on tärkeä rooli mallin sopivuuden tarkastelussa (kts. mallintaminen).
 
===[[Quasi-likelihood|Kvasiuskottavuus]]===
Yleistettyjen lineaaristen mallien yksi perusoletus (1) on vastemuuttujan jakauman kuuluminen eksponenttiperheeseen. Usein on kuitenkin niin, ettei vastemuuttujan jakaumaa tunneta. Tämä ei kuitenkaan nouse ongelmaksi, sillä [[estimointi]] voidaan tehdä myös jakaumasta johdetun varianssifunktion avulla. Ensimmäinen oletus eksponenttiperheestä voidaan siten korvata oletuksella:
: <math> Var(Y_i) = \frac{\phi V(\mu_i)}{a_i}. </math>
Nyt ei kuitenkaan ole olemassa uskottavuusfunktiota, joten esimerkiksi devianssi täytyy määrittää kvasiuskottavuusfunktion avulla. Kvasiuskottavuusfunktio toimii kuten tunnetun jakauman uskottavuusfunktio ja esimerkiksi sen avulla voidaan laskea suurimman uskottavuuden estimaatteja.
: <math> Q(\beta;y)= (1 / \phi) \sum_{i=1}^n \int_y^\mu {\left(\frac{a(y_i-t)} {V(t)} \right)dt}. \,\!</math>
 
==Mallintaminen ja mallin sopivuuden tarkastelu==
Mallintamisen prosessi alkaa jo tutkimusasetelman muodostamisesta ja [[Otos|otoksen]] poimimisesta. Suunnittelu on erityisen tärkeä vaihe, koska se määrää pitkälti sen, millainen ja kuinka hyvä malli aineiston pohjalta voidaan muodostaa. Aineiston keruun jälkeen valitaan mallityyppi, estimoidaan se ja tarkastellaan vielä mallin sopivuutta. Lopuksi tehdään johtopäätökset ja kirjoitetaan aiheesta raportti.
 
Lähtökohtaisesti on tärkeää, että malliin on valittu vastemuuttujan tyypille sopiva linkkifunktio. Huolellisenkin mallin valinnan jälkeen voi kuitenkin käydä niin, että malli istuu huonosti aineistoon. Mallin sopivuutta aineistoon voidaan tutkia erilaisilla kriteereillä. Erityisesti kannattaa kiinnittää huomiota, mallin jäännösten vaihteluun, yli[[hajonta]]an, poikkeaviin ja puuttuviin havaintoihin sekä selittäjien kykyyn selittää vastemuuttujan vaihtelua. Jos mukana on useampia kilpailevia malleja, kannattaa lisäksi vertailla näiden mallien niin sanottuja informaatiokriteereitä (AIC ja BIC).
 
===Jäännökset===
Yleistetyillä lineaarisilla malleilla niin sanottujen raakojen [[residuaali]]en (''y''<sub>i</sub>-''µ''<sub>i</sub>) jakauma on usein vino ja ne riippuvat odotusarvosta ''µ''. Tämän vuoksi jäännöksistä tarvitaan myös yleistetty versio, joka voidaan tehdä monin eri tavoin.
Yksinkertaisin korjaus voidaan tehdä jakamalla raakaresiduaalit [[Neliöjuuri|neliöjuuressa]] olevan odotusarvon varianssifunktion ja painon suhteella. Näitä jäännöksiä kutsutaan [[Pearsonin jäännös|Pearsonin jäännöksiksi]].
: <math> r_{P,i} = \frac{y_i-\widehat{\mu_i}}{\sqrt {V(\widehat{\mu_i})/a_i}}. </math>
Muita muunnosresiduaali vaihtoehtoja ovat [[devianssi]]jäännökset ja Anscomben jäännökset. Kummatkin antavat likimain samanlaiset jäännökset, mutta devianssijäännökset ovat laskennallisesti helpompia.
Rivi 54:
Devianssi on luonnollinen mittari mallin sopivuuden tarkastelulle. Kun malli sopii täydellisesti aineistoon, sen devianssi on nolla. Eli mitä pienempi on devianssi, sitä paremmin malli toimii aineistoissa. Kun hajontaparametri ''Ф'' on tunnettu (binomi- ja Poisson-mallit), voidaan skaalatun devianssin avulla tutkia onko ''Ф'':n arvo aineistossa oikea. Ylihajonnalla tarkoitetaan sitä, että aineistosta estimoitu hajontaparametri on suurempi kuin oletettu. Binomi- ja Poisson-malleille reilusti vapausasteita (''n''-''p'') suuremmat devianssiarvot viittaavat ylihajontaan.
 
===Uskottavuusosamäärän testi ===
Devianssia käytetään apuna myös mallin selittäjien merkitsevyyden tarkastelussa [[Uskottavuusosamäärä|uskottavuusosamäärän testin]] muodossa. Uskottavuusosamäärän testillä testataan nollahypoteesia <math> H_0 = \beta_{k1} = \beta_{k2} =...= \beta_{k(p-q)} = 0. </math> Jos nollahypoteesi kyetään hylkäämään, niin voidaan päätellä selittäjien olevan tilastollisesti merkitsevä vastemuuttujan vaihtelun selittämisessä.
Testisuure saadaan laskemalla:
: <math> {\frac{D(y;\widehat{\beta_0})-D(y;\widehat{\beta})} {\widehat{\phi}(p-q)} } \,\!</math>
Jos hajontaparametri ''Ф'' on tunnettu, testisuure noudattaa [[Khii toiseen -jakauma|χ²-jakaumaa]] parametrein (''p''-''q''). Jos hajontaparametri on estimoitava, noudattaa testisuure [[F-jakauma|F-jakaumaa]] parametrein ''p-q, n-p''.
 
===Poikkeavat ja puuttuvat havainnot===
Poikkeavat ja puuttuvat havainnot saattavat vaikuttaa huomattavasti mallin sopivuuteen. Poikkeavat havainnot voivat huonontaa mallin sopivuutta kahdella tavalla; ne ”vääntävät” mallin sovitetta ja vaikuttavat regressiokertoimiin tai niiden jäännökset ovat selkeästi muita suurempia. Poikkeavia havaintoja voidaan tutkia muun muassa [[Cookin mitta|Cookin mitan]] tai [[vipuvoima]]n avulla.
 
Puuttuvat tiedot ovat ongelma, jos niitä on paljon ja etenkin, jos kadon ja vastemuuttujan ''Y'' välillä on yhteys (MNAR). Puuttuvien tietojen käsittelemättä jättäminen on hyväksyttävää, jos kato on satunnaista ja sitä on vain vähän. Muussa tapauksessa puuttuvat havainnot kannattaa joko asianmukaisesti [[Imputointi|imputoida]] tai mallintaa aineisto erikseen puuttuvien ja havaittujen havaintojen kesken.
 
===AIC ja BIC===
[[Akaiken informaatiokriteeri]]n (AIC) ja [[Bayesilainen informaatiokriteeri|Bayesilaisen informaatiokriteerin]] (BIC) avulla voidaan vartailla kilpailevia malleja. Mallia, jolla on pienin AIC (tai BIC), pidetään parhaana.
 
==Mallin soveltaminen eri tilanteissa==
Rivi 72:
===Binomivasteet===
Kun vastusvaihtoehtoja on kaksi (0 tai 1), vastemuuttujana on positiivisten vasteiden (1) osuus kaikista: <math> Y_i = K_i / m_i </math>. ''K''<sub>i</sub> noudattaa [[binomijakauma|binomijakaumaa]] ''Bin''(''m''<sub>i</sub>, ''л''<sub>i</sub>), jos positiivisen vasteen todennäköisyys ''л''<sub>i</sub> on kiinteä kussakin [[kovariaatti]]luokassa ''m''<sub>i</sub>. Binomijakaumalle ylihajonta on hyvin yleistä, joka johtuu esimerkiksi [[Klusteri|ryvästymisestä]].
Binomivasteen tapauksessa usein käytettyjä linkkifunktioita ovat:
* Logistinen: <math> g(\mu_i) = log(\frac{\mu_i}{1-\mu_i}). </math>
* Probit-funktio: <math> \operatorname{g}(\mu_i) = \phi^{-1}(\mu_i). </math> missä ''Ф'' on normeeratun normaalijakauman kertymäfunktio.
* Komplementaarinen log-log –funktio: <math> \operatorname{g}(\mu_i) = log(-log(1-\mu_i)). </math>
Yleistetty lineaarinen malli binomisen vasteen tapauksessa on sama kuin logistinen regressiomalli, jos linkkifunktioksi valitaan logistinen linkkifunktio. Logistinen linkkifunktio on myös binomijakauman kanoninen linkki.
Rivi 89:
 
===Luokitteluaineistot===
Luokitteluasteikollisia vastemuuttujia voidaan käsitellä binomivasteiden yleistyksenä, missä vasteena on luokka. Järjestysasteikolliset muuttujat poikkeavat luokitteluasteikollisista siten, että luokkien välillä on selkeä, luonnollinen järjestys. Kuhunkin kovariaattiluokkaan ''i'' liittyy Q-ulotteinen vastevektori ''Y''<sub>i</sub> = [''K''<sub>i1</sub>/''m''<sub>i</sub>, ''K''_<sub>i2</sub>/''m''<sub>i</sub>,…,''K''<sub>iQ</sub>/''m''<sub>i</sub>].
 
[[Multinominaalijakauma]] on yleistys binomijakaumasta. Eli kun kategorioita on enemmän kuin kaksi kyseessä on multinominaalijakauma. Jakauma on muotoa:
:<math>\frac{m_i!}{k_{i1}! k_{i2}!...k_{iQ}!} \pi_{i1}^{k_{i1}} \pi_{i2}^{k_{i2}}... \pi_{iQ}^{k_{iQ}}.</math>
Multinominaalijakauma ei sellaisenaan kuulu eksponenttiperheeseen, mutta se voidaan määrittää Poisson-jakauman kautta.
Olkoon ''K''<sub>1</sub>, ''K''<sub>2</sub>,…, ''K''<sub>Q</sub> ovat Poisson-jakautuneita satunnaismuuttujia odotusarvoilla ''λ''<sub>1</sub>, ''λ''<sub>2</sub>,…,''λ''<sub>Q</sub>. Summa ''m'' = ''K''<sub>1</sub> + ''K''<sub>2</sub> +…+ ''K''<sub>Q</sub> on Poisson-jakaumaa noudattava satunnaismuuttuja odotusarvolla ''λ'' = ''λ''<sub>1</sub> + ''λ''<sub>2</sub> +…+ ''λ''<sub>Q</sub>. Siten ehdollinen jakauma on multinominaalijakauman muotoinen:
 
: <math> f(k_1,k_2,...,k_Q;m)=(\frac{\lambda_1}{\lambda})^{k_1}(\frac{\lambda_2}{\lambda})^{k_2} ... (\frac{\lambda_Q}{\lambda})^{k_Q} \frac {m!} {k_1!k_2!...k_q!}. </math>
Rivi 105:
 
Positiiviselle vasteelle on erilaisia mahdollisia jakaumia. Yksi vaihtoehto on [[Gamma-jakauma]], jolla ''C.V'' on vakio. Gamma-jakaumalle mahdollisia linkkifunktioita ovat:
* Käänteinen linkki: <math> g(\mu_i) = \frac{1}{\mu_i}. </math>
* Log-linkki: <math> \operatorname{g}(\mu_i) = log(\mu_i). </math>
Käänteinen linkkifunktio on Gamma-jakuman kanoninen linkkifunktio. Tällä linkillä on tarpeen rajoittaa regressiokerrointa ''ß'', ettei sovitteet ole negatiivisia. Log-linkkifunktion kohalla regressiokerrointa ''ß'' ei tarvitse rajoittaa.
 
Rivi 112:
 
==Esimerkki mallin soveltamisesta R:ssä==
[[R (ohjelmisto)|R-ohjelmistolla]] voidaan helposti estimoida erilaisia yleistettyjä lineaarisia malleja. Mallissa pitää määritellä vastemuuttuja ja selittävät muuttujat, eksponenttiperheen muoto, linkkifunktio ja käytetty aineisto. Jos linkkifunktio jätetään ilmoittamatta, ohjelmisto käyttää automaattisesti kanonista linkkiä.
 
Esimerkki mallin estimoimisesta:
 
glm(y~x1+x2, family=poisson(link=”log”), data = aineisto)
 
Lisätietoa yleistetyn lineaarisen mallin sovittamiseen R:ssä saa komennolla:
Rivi 123:
 
==Lähteet==
* McCullagh, P.; Nelder, J.: Generalized Linear Models. Chapman and Hall, 1989. ISBN 0-412-31760-5.
* Karvanen Juha: Generalized Linear Models, http://wiki.helsinki.fi/download/attachments/35917349/lectures.pdf?version=1
* Heikkinen Juha: Yleistetyt lineaariset mallit, http://www.rni.helsinki.fi/~jmh/glm05/