Yleistetty lineaarinen malli

Yleistetyt lineaariset mallit (engl. Generalized linear models) on laaja tilastotieteen malliluokka, jonka avulla voidaan mallintaa erityyppisiä ja eri jakaumia noudattavia vastemuuttujia. Lineaarinen malli on yksi yleistetyn lineaarisen mallin erikoistapaus, eikä se sovi käytettäväksi kaikissa tilanteissa sen oletuksista johtuen. Esimerkiksi positiivisien vasteiden, lukumäärävasteiden ja binomisten vasteiden mallinnukseen yleistetty lineaarinen malli sopii lineaarista mallia paremmin. Myös epälineaariset yhteydet muuttuja muunnostenkin jälkeen saattavat koitua lineaarisen mallin ongelmaksi, koska vakiovarianssioletus ei aina ole voimassa. Yleistettyjen lineaaristen mallien muita tunnettuja erikoistapauksia ovat logistinen malli ja Poisson-regressio.

Yleistetyt lineaariset mallit ovat siis klassisten lineaaristen mallien perheen sellainen laajennus, josta löytyy sopiva malli kaikkiin edellä olleisiin lineaarisen mallin kannalta ongelmallisiin esimerkkitilanteisiin. Yleistetyn lineaarisen mallin systemaattinen osa on edelleen lineaarinen, mutta se ei ole välttämättä suoraan Y_i:n odotusarvo, vaan mahdollisesti joku sen tunnettu muunnos.

\operatorname {g} ({\boldsymbol {\mu _{i}}})=\sum _{j=1}^{p}x_{ij}{\boldsymbol {\beta _{j}}}={\boldsymbol {\eta _{i}}}

Kaavassa g() on jokin linkkifunktio, joka määrittää vastemuuttujan suhteen lineaariseen malliin. Linkkifunktiolle ei ole muita rajoitteita kuin, että se on monotoninen ja derivoituva. Linkkifunktioita ovat mm. g(µ_i) = log(µ_i) ja g(µ_i) = 1/µ_i.

Periaatteessa yleistetyt lineaariset mallit ovat läheistä sukua muunnettujen vasteiden lineaariselle mallille. Erona on se, että muunnos tehdään yleistetyissä lineaarisissa malleissa odotusarvolle eikä vastemuuttujalle. Etuna yleistettyjen lineaaristen mallien käytössä muunnettujen lineaaristen mallien sijaan on se, että varianssifunktion ei tarvitse olla vakio ja yleisesti yleistetyt lineaariset mallit tuottavat luotettavampia tuloksia.

Yleistettyjen lineaaristen mallien teoriaa

Mallin oletukset

Yleistetyllä lineaarisella mallilla on kolme perusoletusta:

Vastemuuttujan Y_i, i = 1,…,n jakaumat kuuluvat samaan eksponenttiperheeseen. Tämä toteutuu, kun satunnaismuuttujien Y_i tiheysfunktiot voidaan kirjoittaa muodossa:

f_{Y}(y_{i};\theta _{i},\phi )=\exp {\left({\frac {a_{i}(y_{i}\theta _{i}-b(\theta _{i}))}{\phi }}+c(y_{i},\phi (1/a_{i})\right)}\,\!

, jossa a_i on paino, Ф on tunnettu tai tuntematon hajontaparametri, θ on tuntematon parametri ja b() ja c() ovat tunnettuja funktioita.

Y_i:t ovat keskenään riippumattomia.
On olemassa reaaliarvoinen monotoninen ja derivoituva linkkifunktio g, joka kuvaa vastemuuttujien odotusarvot µ_i selittävien muuttujien arvojen lineaariseksi ennusteeksi η_i:

\operatorname {g} ({\boldsymbol {\mu _{i}}})=\sum _{j=1}^{p}x_{ij}{\boldsymbol {\beta _{j}}}={\boldsymbol {\eta _{i}}}

Linkkifunktion valinta

Linkkifunktion valintaan vaikuttaa vastemuuttujan tyyppi ja jakauma. Linkkifunktio valitaan siis aineistoon sopivaksi. Sellaista linkkifunktiota, jolle pätee η_i = g(µ_i) = θ_i, kutsutaan kanoniseksi linkkifunktioksi ja sen käyttö helpottaa laskemista. Tämä on kätevää, jos kanoninen linkkifunktio sopii aineistoon riittävän hyvin, mutta linkkifunktion kanonisuus ei ole perustelu sen sopivuudelle. Normaalijakaumaan lineaarisella mallilla kanoninen linkkifunktio on identtinen eli g(µ_i) = µ_i. Binomijakauman kanoninen linkkifunktio on logistinen g(µ_i) = log[µ_i/(1- µ_i)].

Logaritminen uskottavuus, pistemääräfunktio ja estimointi

Eksponenttiperheen logaritminen uskottavuusfunktio tunnetulla hajontaparametrilla Ф voidaan kirjoittaa muodossa:

l(\theta _{1},...,\theta _{n};\phi ,a_{i},y_{i})=\sum _{i=1}^{n}{\left({\frac {a_{i}(y_{i}\theta _{i}-b(\theta _{i}))}{\phi }}+c(y_{i},\phi (1/a_{i})\right)}.\,\!

Pistemääräfunktio on osittaisderivaatta logaritmisesta uskottavuusfunktiosta. Suurimman uskottavuuden estimaatti saadaan ratkaisemalla pistemääräfunktio, kun se asetetaan nollaksi. Uskottavuusyhtälöt ovat ß_j:n suhteen epälineaarisia, jos linkkifunktio on epälineaarinen. ß_j:n estimoimiseen tarvitaan siten iteratiivinen menetelmä, joista yksinkertaisin on Newton-Raphson –menetelmä.

Devianssi

Yleistetyn lineaarisen mallin devianssi on:

D(y;{\widehat {\mu }})=2\phi (l(y;y)-l({\widehat {\mu }};y)).

jossa l(.;y) on odotusarvovektorin µ ja hajontaparametrin Ф logaritminen uskottavuusfunktio ja l(y, Ф;y) on saturoidun, eli täydellisesti aineistoon sopivan mallin, uskottavuus. Skaalattu devianssi saadaan jakamalla devianssi hajontaparametrilla Ф. Devianssilla on tärkeä rooli mallin sopivuuden tarkastelussa (kts. mallintaminen).

Kvasiuskottavuus

Yleistettyjen lineaaristen mallien yksi perusoletus (1) on vastemuuttujan jakauman kuuluminen eksponenttiperheeseen. Usein on kuitenkin niin, ettei vastemuuttujan jakaumaa tunneta. Tämä ei kuitenkaan nouse ongelmaksi, sillä estimointi voidaan tehdä myös jakaumasta johdetun varianssifunktion avulla. Ensimmäinen oletus eksponenttiperheestä voidaan siten korvata oletuksella:

Var(Y_{i})={\frac {\phi V(\mu _{i})}{a_{i}}}.

Nyt ei kuitenkaan ole olemassa uskottavuusfunktiota, joten esimerkiksi devianssi täytyy määrittää kvasiuskottavuusfunktion avulla. Kvasiuskottavuusfunktio toimii kuten tunnetun jakauman uskottavuusfunktio ja esimerkiksi sen avulla voidaan laskea suurimman uskottavuuden estimaatteja.

Q(\beta ;y)=(1/\phi )\sum _{i=1}^{n}\int _{y}^{\mu }{\left({\frac {a(y_{i}-t)}{V(t)}}\right)dt}.\,\!

Mallintaminen ja mallin sopivuuden tarkastelu

Mallintamisen prosessi alkaa jo tutkimusasetelman muodostamisesta ja otoksen poimimisesta. Suunnittelu on erityisen tärkeä vaihe, koska se määrää pitkälti sen, millainen ja kuinka hyvä malli aineiston pohjalta voidaan muodostaa. Aineiston keruun jälkeen valitaan mallityyppi, estimoidaan se ja tarkastellaan vielä mallin sopivuutta. Lopuksi tehdään johtopäätökset ja kirjoitetaan aiheesta raportti.

Lähtökohtaisesti on tärkeää, että malliin on valittu vastemuuttujan tyypille sopiva linkkifunktio. Huolellisenkin mallin valinnan jälkeen voi kuitenkin käydä niin, että malli istuu huonosti aineistoon. Mallin sopivuutta aineistoon voidaan tutkia erilaisilla kriteereillä. Erityisesti kannattaa kiinnittää huomiota, mallin jäännösten vaihteluun, ylihajontaan, poikkeaviin ja puuttuviin havaintoihin sekä selittäjien kykyyn selittää vastemuuttujan vaihtelua. Jos mukana on useampia kilpailevia malleja, kannattaa lisäksi vertailla näiden mallien niin sanottuja informaatiokriteereitä (AIC ja BIC).

Jäännökset

Yleistetyillä lineaarisilla malleilla niin sanottujen raakojen residuaalien (y_i-µ_i) jakauma on usein vino ja ne riippuvat odotusarvosta µ. Tämän vuoksi jäännöksistä tarvitaan myös yleistetty versio, joka voidaan tehdä monin eri tavoin. Yksinkertaisin korjaus voidaan tehdä jakamalla raakaresiduaalit neliöjuuressa olevan odotusarvon varianssifunktion ja painon suhteella. Näitä jäännöksiä kutsutaan Pearsonin jäännöksiksi.

r_{P,i}={\frac {y_{i}-{\widehat {\mu _{i}}}}{\sqrt {V({\widehat {\mu _{i}}})/a_{i}}}}.

Muita muunnosresiduaali vaihtoehtoja ovat devianssijäännökset ja Anscomben jäännökset. Kummatkin antavat likimain samanlaiset jäännökset, mutta devianssijäännökset ovat laskennallisesti helpompia.

Ylihajonta

Devianssi on luonnollinen mittari mallin sopivuuden tarkastelulle. Kun malli sopii täydellisesti aineistoon, sen devianssi on nolla. Eli mitä pienempi on devianssi, sitä paremmin malli toimii aineistoissa. Kun hajontaparametri Ф on tunnettu (binomi- ja Poisson-mallit), voidaan skaalatun devianssin avulla tutkia onko Ф:n arvo aineistossa oikea. Ylihajonnalla tarkoitetaan sitä, että aineistosta estimoitu hajontaparametri on suurempi kuin oletettu. Binomi- ja Poisson-malleille reilusti vapausasteita (n-p) suuremmat devianssiarvot viittaavat ylihajontaan.

Uskottavuusosamäärän testi

Devianssia käytetään apuna myös mallin selittäjien merkitsevyyden tarkastelussa uskottavuusosamäärän testin muodossa. Uskottavuusosamäärän testillä testataan nollahypoteesia $H_{0}=\beta _{k1}=\beta _{k2}=...=\beta _{k(p-q)}=0.$ Jos nollahypoteesi kyetään hylkäämään, niin voidaan päätellä selittäjien olevan tilastollisesti merkitsevä vastemuuttujan vaihtelun selittämisessä. Testisuure saadaan laskemalla:

{\frac {D(y;{\widehat {\beta _{0}}})-D(y;{\widehat {\beta }})}{{\widehat {\phi }}(p-q)}}\,\!

Jos hajontaparametri Ф on tunnettu, testisuure noudattaa χ²-jakaumaa parametrein (p-q). Jos hajontaparametri on estimoitava, noudattaa testisuure F-jakaumaa parametrein p-q, n-p.

Poikkeavat ja puuttuvat havainnot

Poikkeavat ja puuttuvat havainnot saattavat vaikuttaa huomattavasti mallin sopivuuteen. Poikkeavat havainnot voivat huonontaa mallin sopivuutta kahdella tavalla; ne ”vääntävät” mallin sovitetta ja vaikuttavat regressiokertoimiin tai niiden jäännökset ovat selkeästi muita suurempia. Poikkeavia havaintoja voidaan tutkia muun muassa Cookin mitan tai vipuvoiman avulla.

Puuttuvat tiedot ovat ongelma, jos niitä on paljon ja etenkin, jos kadon ja vastemuuttujan Y välillä on yhteys (MNAR). Puuttuvien tietojen käsittelemättä jättäminen on hyväksyttävää, jos kato on satunnaista ja sitä on vain vähän. Muussa tapauksessa puuttuvat havainnot kannattaa joko asianmukaisesti imputoida tai mallintaa aineisto erikseen puuttuvien ja havaittujen havaintojen kesken.

AIC ja BIC

Akaiken informaatiokriteerin (AIC) ja Bayesilaisen informaatiokriteerin (BIC) avulla voidaan vartailla kilpailevia malleja. Mallia, jolla on pienin AIC (tai BIC), pidetään parhaana.

Mallin soveltaminen eri tilanteissa

Vastemuuttujan jakauma mallia varten ja mallin linkkifunktio pitää valita aina aineistoon sopivaksi. Koska yleistetyt lineaariset mallit ovat laaja malliperhe, eri tilanteisiin sopivat erilaisen mallit jakaumineen ja linkkifunktioineen.

Binomivasteet

Kun vastusvaihtoehtoja on kaksi (0 tai 1), vastemuuttujana on positiivisten vasteiden (1) osuus kaikista: $Y_{i}=K_{i}/m_{i}$ . K_i noudattaa binomijakaumaa Bin(m_i, л_i), jos positiivisen vasteen todennäköisyys л_i on kiinteä kussakin kovariaattiluokassa m_i. Binomijakaumalle ylihajonta on hyvin yleistä, joka johtuu esimerkiksi ryvästymisestä. Binomivasteen tapauksessa usein käytettyjä linkkifunktioita ovat:

Logistinen: $g(\mu _{i})=\log \left({\frac {\mu _{i}}{1-\mu _{i}}}\right).$
Probit-funktio: $\operatorname {g} (\mu _{i})=\phi ^{-1}(\mu _{i}).$ missä Ф on normeeratun normaalijakauman kertymäfunktio.
Komplementaarinen log-log –funktio: $\operatorname {g} (\mu _{i})=\log(-\log(1-\mu _{i})).$

Yleistetty lineaarinen malli binomisen vasteen tapauksessa on sama kuin logistinen regressiomalli, jos linkkifunktioksi valitaan logistinen linkkifunktio. Logistinen linkkifunktio on myös binomijakauman kanoninen linkki.

Lukumäärävasteet

Kun vastemuuttuja Y_i on lukumäärä, joille ei ole määritettävissä ylärajaa, puhutaan lukumäärävasteesta. Tyypillisesti Y_i on joltain alueelta ja ajanjaksolta havaittujen tapausten määrä. Jos kyseiset tapaukset voidaan olettaa toisistaan riippumattomiksi ja niiden intensiteetti λ vakioksi, noudattaa lukumäärävaste Poisson-jakaumaa. Sopiva linkkifunktio on log.

\log(\mu _{i})=\sum _{j=1}^{p}x_{ij}{\boldsymbol {\beta _{j}}}

Kuten binomijakauman tapauksessakin, ylihajonta on Poisson-jakaumassa yleistä.

Lukumäärävasteisiin liittyy keskeisesti käsite offset. Offset on hyödyllinen silloin, kun havaintojen aikaikkuna vaihtelee. Tämä aikaikkunan vaihtelu voidaan huomioida mallissa offsetin avulla. Kun linkkifunktio on logistinen, offset saadaan malliin mukaan:

\log(\mu _{i})=\sum _{j=1}^{p}x_{ij}{\boldsymbol {\beta _{j}}}+\log(t_{i})

jossa T_i on aikaikkuna.

Luokitteluaineistot

Luokitteluasteikollisia vastemuuttujia voidaan käsitellä binomivasteiden yleistyksenä, missä vasteena on luokka. Järjestysasteikolliset muuttujat poikkeavat luokitteluasteikollisista siten, että luokkien välillä on selkeä, luonnollinen järjestys. Kuhunkin kovariaattiluokkaan i liittyy Q-ulotteinen vastevektori Y_i = [K_i1/m_i, K__i2/m_i,…,K_iQ/m_i].

Multinominaalijakauma on yleistys binomijakaumasta. Eli kun kategorioita on enemmän kuin kaksi kyseessä on multinominaalijakauma. Jakauma on muotoa:

{\frac {m_{i}!}{k_{i1}!k_{i2}!...k_{iQ}!}}\pi _{i1}^{k_{i1}}\pi _{i2}^{k_{i2}}...\pi _{iQ}^{k_{iQ}}.

Multinominaalijakauma ei sellaisenaan kuulu eksponenttiperheeseen, mutta se voidaan määrittää Poisson-jakauman kautta. Olkoon K₁, K₂,…, K_Q ovat Poisson-jakautuneita satunnaismuuttujia odotusarvoilla λ₁, λ₂,…,λ_Q. Summa m = K₁ + K₂ +…+ K_Q on Poisson-jakaumaa noudattava satunnaismuuttuja odotusarvolla λ = λ₁ + λ₂ +…+ λ_Q. Siten ehdollinen jakauma on multinominaalijakauman muotoinen:

f(k_{1},k_{2},...,k_{Q};m)=\left({\frac {\lambda _{1}}{\lambda }}\right)^{k_{1}}\left({\frac {\lambda _{2}}{\lambda }}\right)^{k_{2}}...\left({\frac {\lambda _{Q}}{\lambda }}\right)^{k_{Q}}{\frac {m!}{k_{1}!k_{2}!...k_{q}!}}.

Koska $\left({\frac {\lambda _{q}}{\lambda }}\right)^{k_{q}}=\pi _{q}$ kyseessä on multinominaalijakauma.

On hyvä huomata, että mallista on jätettävä yksi luokka pois analyysia varten. Tämä poisjätetty luokka toimii ns. vertailuluokkana. Sopiva linkkifunktio lukumäärävasteille on logistinen linkki.

Positiiviset vasteet

Kun vastemuuttuja on jatkuva, joka voi saada vain positiivisia arvoja, puhutaan positiivisesta vasteesta. Ei-negatiivinen vaste voi saada myös nollahavaintoja. Usein positiivisen ja ei-negatiivisen vasteen jakauma on vino, johon on reagoitava. Malleissa, joissa on positiivinen vastemuuttuja, oletetaan variaatiokertoimen C.V olevan vakio.

Positiiviselle vasteelle on erilaisia mahdollisia jakaumia. Yksi vaihtoehto on Gamma-jakauma, jolla C.V on vakio. Gamma-jakaumalle mahdollisia linkkifunktioita ovat:

Käänteinen linkki: $g(\mu _{i})={\frac {1}{\mu _{i}}}.$
Log-linkki: $\operatorname {g} (\mu _{i})=\log(\mu _{i}).$

Käänteinen linkkifunktio on Gamma-jakauman kanoninen linkkifunktio. Tällä linkillä on tarpeen rajoittaa regressiokerrointa ß, ettei sovitteet ole negatiivisia. Log-linkkifunktion kohdalla regressiokerrointa ß ei tarvitse rajoittaa.

Gamma-jakautuneelle vastemuuttujalle on mahdollista käyttää myös log-normaalijakaumaa. Käytännössä vastemuuttujasta otetaan logaritmi ja oletetaan tämän muunnoksen noudattavan normaalijakaumaa. Myös käänteinen Gaussianin jakauma, Weibullin jakauma ja Pareto-jakauma ovat mahdollisia vaihtoehtoja positiiviselle vasteelle.

Esimerkki mallin soveltamisesta R:ssä

R-ohjelmistolla voidaan helposti estimoida erilaisia yleistettyjä lineaarisia malleja. Mallissa pitää määritellä vastemuuttuja ja selittävät muuttujat, eksponenttiperheen muoto, linkkifunktio ja käytetty aineisto. Jos linkkifunktio jätetään ilmoittamatta, ohjelmisto käyttää automaattisesti kanonista linkkiä.

Esimerkki mallin estimoimisesta:

 glm(y~x1+x2, family=poisson(link=”log”), data = aineisto)

Lisätietoa yleistetyn lineaarisen mallin sovittamiseen R:ssä saa komennolla:

 ?’glm’

Lähteet

McCullagh, P. & Nelder, J.: Generalized Linear Models. Chapman and Hall, 1989. ISBN 0-412-31760-5.
Karvanen, Juha: Generalized Linear Models, http://wiki.helsinki.fi/download/attachments/35917349/lectures.pdf?version=1 (Arkistoitu – Internet Archive)
Heikkinen, Juha: Yleistetyt lineaariset mallit, http://www.rni.helsinki.fi/~jmh/glm05/ (Arkistoitu – Internet Archive)