Ero sivun ”Yleistetty lineaarinen malli” versioiden välillä

[arvioimaton versio][arvioimaton versio]
Poistettu sisältö Lisätty sisältö
Ras (keskustelu | muokkaukset)
p yhdistettävä
JeNik (keskustelu | muokkaukset)
Ei muokkausyhteenvetoa
Rivi 1:
{{yhdistettävä|Yleistetyt lineaariset mallit}}
[[Tilastotiede|Tilastotieteessä]] '''yleistetty lineaarinen malli''' on laaja malliluokka, johon kuuluvat erikoistapauksina mm. [[lineaarinen regressioanalyysi|lineaarinen malli]], logistinen malli ja Poisson-regressiomallit.
 
'''Yleistetyt lineaariset mallit''' ({{k-en|Generalized linear models}}) on laaja [[Tilastotiede|tilastotieteen]] malliluokka, jonka avulla voidaan [[Mallintaminen|mallintaa]] erityyppisiä ja eri [[Jakauma|jakaumia]] noudattavia [[Vastemuuttuja|vastemuuttujia]]. [[Lineaarinen regressioanalyysi|Lineaarinen malli]] on yksi yleistetyn lineaarisen mallin erikoistapaus, eikä se sovi käytettäväksi kaikissa tilanteissa sen oletuksista johtuen. Esimerkiksi positiivisia vasteita, lukumäärävasteita ja binomisia vasteita ei kannata mallintaa lineaarista mallia käyttäen. Myös epälineaariset yhteydet muuttuja muunnostenkin jälkeen saattavat koitua ongelmaksi, koska lineaarisen mallin vakio[[varianssi]]oletus ei aina ole voimassa. Yleistettyjen lineaaristen mallien muita tunnettuja erikoistapauksia ovat [[logistinen malli]] ja [[Poisson-regressiomalli]].
== Oletukset ==
Täsmällisesti ottaen yleistetty lineaarinen malli on oletus vastemuuttujan ja selittävien tekijöiden välisestä suhteesta. Oletetaan:
 
Yleistetyt lineaariset mallit ovat siis klassisten lineaaristen mallien perheen sellainen laajennus, josta löytyy sopiva malli kaikkiin edellä olleisiin lineaarisen mallin kannalta ongelmallisiin esimerkkitilanteisiin. Yleistetyn lineaarisen mallin systemaattinen osa on edelleen lineaarinen, mutta se ei ole välttämättä suoraan ''Y''<sub>i</sub>:n [[odotusarvo]], vaan mahdollisesti joku sen tunnettu muunnos.
# Vastemuuttujan Y ehdollinen odotusarvo on monotoninen funktio selittävien tekijöiden lineaarikombinaatiosta.
: <math>\operatorname{g}(\boldsymbol{\mu_i}) = \sum_{j=1}^p x_{ij} \boldsymbol{\beta_j} = \boldsymbol{\eta_i} </math>
# Vastemuuttujan Y ehdollinen varianssi on odotusarvon jatkuva funktio, formaalisti Var(Y|X) = f(E(Y|X)).
 
Kaavassa ''g()'' on jokin [[linkkifunktio]], joka määrittää vastemuuttujan suhteen lineaariseen malliin. Linkkifunktiolle ei ole muita rajoitteita kuin, että se on monotoninen ja [[Derivointi|derivoituva]]. Linkkifunktioita ovat mm. ''g''(''µ''<sub>i</sub>) = log(''µ''<sub>i</sub>) ja ''g''(''µ''<sub>i</sub>) = 1/''µ''<sub>i</sub>.
Nämä oletukset ovat lievempiä, kuin tavallisen lineaarisen mallin vastaavat ehdot:
 
Periaatteessa yleistetyt lineaariset mallit ovat läheistä sukua muunnettujen vasteiden lineaariselle mallille. Erona on se, että muunnos tehdään yleistetyissä lineaarisissa malleissa odotusarvolle eikä vastemuuttujalle. Etuna yleistettyjen lineaaristen mallien käytössä muunnettujen lineaaristen mallien sijaan on se, että varianssifunktion ei tarvitse olla vakio ja yleisesti yleistetyt lineaariset mallit tuottavat luotettavampia tuloksia.
1'. Vastemuuttujan Y ehdollinen odotusarvo on selittävien muuttujien lineaarikombinaatio
 
==Yleistettyjen lineaaristen mallien teoriaa==
2'. Vastemuuttujan Y ehdollinen varianssi on vakio, formaalisti Var(Y|X) = a, a>0.
===Mallin oletukset===
Yleistetyllä lineaarisella mallilla on kolme perusoletusta:
# Vastemuuttujan ''Y''<sub>i</sub>, ''i'' = 1,…,n jakaumat kuuluvat samaan [[eksponentti]]perheeseen. Tämä toteutuu, kun [[Satunnaismuuttuja|satunnaismuuttujien]] ''Y''<sub>i</sub> tiheys[[funktio]]t voidaan kirjoittaa muodossa:
: <math> f_Y(y_i; \theta_i, \phi) = \exp{\left(\frac{a_i(y_i\theta_i-b(\theta_i))}
{\phi} +
c(y_i,\phi(1/a_i) \right)} \,\!</math> , jossa ''a''<sub>i</sub> on paino, ''Ф'' on tunnettu tai tuntematon hajontaparametri, ''θ'' on tuntematon parametri ja'' b()'' ja ''c()'' ovat tunnettuja funkioita.
# ''Y''<sub>i</sub>:t ovat keskenään riippumattomia.
# On olemassa reaaliarvoinen monotoninen ja derivoituva linkkifunktio ''g'', joka kuvaa vastemuuttujien odotusarvot ''µ''<sub>i</sub> selittävien muuttujien arvojen lineaariseksi ennusteeksi ''η''<sub>i</sub>:
: <math>\operatorname{g}(\boldsymbol{\mu_i}) = \sum_{j=1}^p x_{ij} \boldsymbol{\beta_j} = \boldsymbol{\eta_i} </math>
 
Koska 1' ja 2' toteuttavat 1 ja 2, nähdään että lineaarinen malli on eräs yleistetty lineaarinen malli. 1 ja 2 yleisyyden vuoksi yleistetty lineaarinen malli soveltuu hyvin monenlaisiin koeasetelmiin. Sitä tulisi etenkin käyttää tavallisen lineaarisen mallin sijasta binäärivasteiden ja positiivisten vasteiden tapauksessa, koska näissä tapauksissa 1' rikkoutuu selvästi.
 
===Linkkifunktion valinta===
== Mallin soveltaminen ==
Linkkifunktion valintaan vaikuttaa vastemuuttujan tyyppi ja jakauma. Linkkifunktio valitaan siis aineistoon sopivaksi. Sellaista linkkifunktiota, jolle pätee ''η<sub>i</sub> = g(µ<sub>i</sub>) = θ<sub>i</sub>'', kutsutaan kanoniseksi linkkifunktioksi ja sen käyttö helpottaa laskemista. Tämä on kätevää, jos kanoninen linkkifunktio sopii aineistoon riittävän hyvin, mutta linkkifunktion kanonisuus ei ole perustelu sen sopivuudelle. Normaalijakaumaan lineaarisella mallilla kanoninen linkkifunktio on identtinen eli ''g''(µ<sub>i</sub>) = ''µ''<sub>i</sub>. Binomijakauman kanoninen linkkifunktio on logistinen ''g''(''µ''<sub>i</sub>) = ''log''[''µ''<sub>i</sub>/(1- ''µ''<sub>i</sub>)].
 
===Logaritminen uskottavuus, pistemääräfunktio ja estimointi===
Nykyään monet tilasto-ohjelmistot sisältävät yleistetyn lineaarisen mallin sovittamiseen tarvittavia ohjelmia. Yleistetty lineaarinen malli voidaan ratkaista joko laskemalla numeerisesti mallin uskottavuusfunktion tunnuslukuja tai suoraan simuloimalla uskottavuusfunktiota MCMC:lla ({{k-en|Markov Chain Monte Carlo}}).
Eksponenttiperheen logaritminen uskottavuusfunktio tunnetulla hajontaparametrilla ''Ф'' voidaan kirjoittaa muodossa:
: <math> l(\theta_1,...,\theta_n; \phi,a_i,y_i) = \sum_{i=1}^n{\left(\frac{a_i(y_i\theta_i-b(\theta_i))}
{\phi} +
c(y_i,\phi(1/a_i) \right)}. \,\!</math>
[[Score (statistics)|Pistemääräfunktio]] on osittaisderivaatta logaritmisesta uskottavuusfunktiosta. [[Suurimman uskottavuuden estimointi|Suurimman uskottavuuden estimaatti]] saadaan ratkaisemalla pistemääräfunktio, kun se asetetaan nollaksi. Uskottavuusyhtälöt ovat ''ß''<sub>j</sub>:n suhteen epälineaarisia, jos linkkifunktio on epälineaarinen.'' ß''<sub>j</sub>:n estimoimiseen tarvitaan siten [[iteratiivinen menetelmä]], joista yksinkertaisin on [[Newton-Raphson –menetelmä]].
 
===Devianssi===
Tilasto-ohjelmistot laskevat usein myös tunnuslukuja, joiden perusteella voidaan testata mallin sovitetta ja spesifikaatiota, ja selittävien tekijöiden merkitsevyyttä. Näitä ovat yleistetyn lineaarisen mallin tapauksessa mm. uskottavuusosamäärät, yleistetty khiin neliö, ja erilaiset jäännösanalyysit.
Yleistetyn lineaarisen mallin [[Deviance (statistics)|devianssi]] on:
: <math> D(y; \widehat{\mu})= 2\phi(l(y;y)-l(\widehat{\mu};y)). </math>
jossa ''l(.;y)'' on odotusarvo[[vektori]]n ''µ'' ja hajontaparametrin ''Ф'' logaritminen uskottavuusfunktio ja ''l(y, Ф;y)'' on saturoidun, eli täydellisesti aineistoon sopivan mallin, uskottavuus. [[Skaala]]ttu devianssi saadaan jakamalla devianssi hajontaparametrilla ''Ф''. Devianssilla on tärkeä rooli mallin sopivuuden tarkastelussa (kts. mallintaminen).
 
===[[Quasi-likelihood|Kvasiuskottavuus]]===
== Logistinen malli ==
Yleistettyjen lineaaristen mallien yksi perusoletus (1) on vastemuuttujan jakauman kuuluminen eksponenttiperheeseen. Usein on kuitenkin niin, ettei vastemuuttujan jakaumaa tunneta. Tämä ei kuitenkaan nouse ongelmaksi, sillä [[estimointi]] voidaan tehdä myös jakaumasta johdetun varianssifunktion avulla. Ensimmäinen oletus eksponenttiperheestä voidaan siten korvata oletuksella:
: <math> Var(Y_i) = \frac{\phi V(\mu_i)}{a_i}. </math>
Nyt ei kuitenkaan ole olemassa uskottavuusfunktiota, joten esimerkiksi devianssi täytyy määrittää kvasiuskottavuusfunktion avulla. Kvasiuskottavuusfunktio toimii kuten tunnetun jakauman uskottavuusfunktio ja esimerkiksi sen avulla voidaan laskea suurimman uskottavuuden estimaatteja.
: <math> Q(\beta;y)= (1 / \phi) \sum_{i=1}^n \int_y^\mu {\left(\frac{a(y_i-t)} {V(t)} \right)dt}. \,\!</math>
 
==Mallintaminen ja mallin sopivuuden tarkastelu==
Logistinen malli on tyypillinen esimerkki yleistetystä lineaarisesta mallista.
Mallintamisen prosessi alkaa jo tutkimusasetelman muodostamisesta ja [[Otos|otoksen]] poimimisesta. Suunnittelu on erityisen tärkeä vaihe, koska se määrää pitkälti sen, millainen ja kuinka hyvä malli aineiston pohjalta voidaan muodostaa. Aineiston keruun jälkeen valitaan mallityyppi, estimoidaan se ja tarkastellaan vielä mallin sopivuutta. Lopuksi tehdään johtopäätökset ja kirjoitetaan aiheesta raportti.
 
Lähtökohtaisesti on tärkeää, että malliin on valittu vastemuuttujan tyypille sopiva linkkifunktio. Huolellisenkin mallin valinnan jälkeen voi kuitenkin käydä niin, että malli istuu huonosti aineistoon. Mallin sopivuutta aineistoon voidaan tutkia erilaisilla kriteereillä. Erityisesti kannattaa kiinnittää huomiota, mallin jäännösten vaihteluun, yli[[hajonta]]an, poikkeaviin ja puuttuviin havaintoihin sekä selittäjien kykyyn selittää vastemuuttujan vaihtelua. Jos mukana on useampia kilpailevia malleja, kannattaa lisäksi vertailla näiden mallien niin sanottuja informaatiokriteereitä (AIC ja BIC).
Logistisessa mallissa oletetaan, että vastemuuttuja Y on Bernoulli-jakautunut (ts. binäärimuuttuja), ja ''onnistumisen'' todennäköisyys p riippuu selittävien tekijöiden X arvosta. Tämä kiinnittää Y:n ehdollisen jakauman (Y|X) yksikäsitteisesti.
 
===Jäännökset===
Logistisessa mallissa määrätään, että p on jokin funktio (''linkkifunktio'') selittävien tekijöiden lineaarikombinaatiosta Lx. Tyypillisesti käytetään (käänteistä) logistista funktiota, jolloin
Yleistetyillä lineaarisilla malleilla niin sanottujen raakojen [[residuaali]]en (''y''<sub>i</sub>-''µ''<sub>i</sub>) jakauma on usein vino ja ne riippuvat odotusarvosta ''µ''. Tämän vuoksi jäännöksistä tarvitaan myös yleistetty versio, joka voidaan tehdä monin eri tavoin.
Yksinkertaisin korjaus voidaan tehdä jakamalla raakaresiduaalit [[Neliöjuuri|neliöjuuressa]] olevan odotusarvon varianssifunktion ja painon suhteella. Näitä jäännöksiä kutsutaan [[Pearsonin jäännös|Pearsonin jäännöksiksi]].
: <math> r_{P,i} = \frac{y_i-\widehat{\mu_i}}{\sqrt {V(\widehat{\mu_i})/a_i}}. </math>
Muita muunnosresiduaali vaihtoehtoja ovat [[devianssi]]jäännökset ja Anscomben jäännökset. Kummatkin antavat likimain samanlaiset jäännökset, mutta devianssijäännökset ovat laskennallisesti helpompia.
 
===Ylihajonta===
Lx = log(p/[1-p]), toisin sanoen p = 1 / (1+exp(-Lx)), merk. p = f(x).
Devianssi on luonnollinen mittari mallin sopivuuden tarkastelulle. Kun malli sopii täydellisesti aineistoon, sen devianssi on nolla. Eli mitä pienempi on devianssi, sitä paremmin malli toimii aineistoissa. Kun hajontaparametri ''Ф'' on tunnettu (binomi- ja Poisson-mallit), voidaan skaalatun devianssin avulla tutkia onko ''Ф'':n arvo aineistossa oikea. Ylihajonnalla tarkoitetaan sitä, että aineistosta estimoitu hajontaparametri on suurempi kuin oletettu. Binomi- ja Poisson-malleille reilusti vapausasteita (''n''-''p'') suuremmat devianssiarvot viittaavat ylihajontaan.
 
===Uskottavuusosamäärän testi ===
Bernoulli-jakauman ominaisuuksien nojalla on voimassa
Devianssia käytetään apuna myös mallin selittäjien merkitsevyyden tarkastelussa [[Uskottavuusosamäärä|uskottavuusosamäärän testin]] muodossa. Uskottavuusosamäärän testillä testataan nollahypoteesia <math> H_0 = \beta_{k1} = \beta_{k2} =...= \beta_{k(p-q)} = 0. </math> Jos nollahypoteesi kyetään hylkäämään, niin voidaan päätellä selittäjien olevan tilastollisesti merkitsevä vastemuuttujan vaihtelun selittämisessä.
Testisuure saadaan laskemalla:
: <math> {\frac{D(y;\widehat{\beta_0})-D(y;\widehat{\beta})} {\widehat{\phi}(p-q)} } \,\!</math>
Jos hajontaparametri ''Ф'' on tunnettu, testisuure noudattaa [[Khii toiseen -jakauma|χ²-jakaumaa]] parametrein (''p''-''q''). Jos hajontaparametri on estimoitava, noudattaa testisuure [[F-jakauma|F-jakaumaa]] parametrein ''p-q, n-p''.
 
===Poikkeavat ja puuttuvat havainnot===
* E(Y|X) = p = f(X), mikä toteuttaa ehdon 1
Poikkeavat ja puuttuvat havainnot saattavat vaikuttaa huomattavasti mallin sopivuuteen. Poikkeavat havainnot voivat huonontaa mallin sopivuutta kahdella tavalla; ne ”vääntävät” mallin sovitetta ja vaikuttavat regressiokertoimiin tai niiden jäännökset ovat selkeästi muita suurempia. Poikkeavia havaintoja voidaan tutkia muun muassa [[Cookin mitta|Cookin mitan]] tai [[vipuvoima]]n avulla.
* Var(Y|X) = p*(1-p), mikä toteuttaa ehdon 2
 
Puuttuvat tiedot ovat ongelma, jos niitä on paljon ja etenkin, jos kadon ja vastemuuttujan ''Y'' välillä on yhteys (MNAR). Puuttuvien tietojen käsittelemättä jättäminen on hyväksyttävää, jos kato on satunnaista ja sitä on vain vähän. Muussa tapauksessa puuttuvat havainnot kannattaa joko asianmukaisesti [[Imputointi|imputoida]] tai mallintaa aineisto erikseen puuttuvien ja havaittujen havaintojen kesken.
==Kirjallisuutta==
* {{kirjaviite|Tekijä=McCullagh, P.; Nelder, J. |Nimeke=Generalized Linear Models|Vuosi=1989|Julkaisija=Chapman and Hall|Tunniste=ISBN 0-412-31760-5}}
 
===AIC ja BIC===
[[Luokka:Regressioanalyysi]]
[[Akaiken informaatiokriteeri]]n (AIC) ja [[Bayesilainen informaatiokriteeri|Bayesilaisen informaatiokriteerin]] (BIC) avulla voidaan vartailla kilpailevia malleja. Mallia, jolla on pienin AIC (tai BIC), pidetään parhaana.
 
==Mallin soveltaminen eri tilanteissa==
[[de:Generalisierte Lineare Modelle]]
Vastemuuttujan jakauma mallia varten ja mallin linkkifunktio pitää valita aina aineistoon sopivaksi. Koska yleistetyt lineaariset mallit ovat laaja malliperhe, eri tilanteisiin sopivat erilaisen mallit jakaumineen ja linkkifunktioineen.
[[en:Generalized linear model]]
[[es:Modelo lineal generalizado]]
===Binomivasteet===
[[it:Modello lineare generalizzato]]
Kun vastusvaihtoehtoja on kaksi (0 tai 1), vastemuuttujana on positiivisten vasteiden (1) osuus kaikista: <math> Y_i = K_i / m_i </math>. ''K''<sub>i</sub> noudattaa [[binomijakauma|binomijakaumaa]] ''Bin''(''m''<sub>i</sub>, ''л''<sub>i</sub>), jos positiivisen vasteen todennäköisyys ''л''<sub>i</sub> on kiinteä kussakin [[kovariaatti]]luokassa ''m''<sub>i</sub>. Binomijakaumalle ylihajonta on hyvin yleistä, joka johtuu esimerkiksi [[Klusteri|ryvästymisestä]].
[[zh:廣義線性模式]]
Binomivasteen tapauksessa usein käytettyjä linkkifunktioita ovat:
* Logistinen: <math> g(\mu_i) = log(\frac{\mu_i}{1-\mu_i}). </math>
* Probit-funktio: <math> \operatorname{g}(\mu_i) = \phi^{-1}(\mu_i). </math> missä ''Ф'' on normeeratun normaalijakauman kertymäfunktio.
* Complementary log-log –funktio: <math> \operatorname{g}(\mu_i) = log(-log(1-\mu_i)). </math>
Yleistetty lineaarinen malli binomisen vasteen tapauksessa on sama kuin logistinen regressiomalli, jos linkkifunktioksi valitaan logistinen linkkifuktio. Logistinen linkkifunktio on myös binomijakauman kanoninen linkki.
 
===Lukumäärävasteet===
Kun vastemuuttuja ''Y''<sub>i</sub> on lukumäärä, joille ei ole määritettävissä ylärajaa, puhutaan lukumäärävasteesta. Tyypillisesti ''Y''<sub>i</sub> on joltain alueelta ja ajanjaksolta havaittujen tapausten määrä. Jos kyseiset tapaukset voidaan olettaa toisistaan riippumattomiksi ja niiden intensiteetti ''λ'' vakioksi, noudattaa lukumäärävaste [[Poisson-jakauma|Poisson-jakaumaa]]. Sopiva linkkifunktio on log.
: <math> log(\mu_i) = \sum_{j=1}^p x_{ij} \boldsymbol{\beta_j} </math>
Kuten binomijakauman tapauksessakin, ylihajonta on Poisson-jakaumassa yleistä.
 
Lukumäärävasteisiin liittyy keskeisesti käsite offset. Offset on hyödyllinen silloin, kun havaintojen aikaikkuna vaihtelee. Tämä aikaikkunan vaihtelu voidaan huomioida mallissa offsetin avulla. Kun linkkifunktio on logistinen, offset saadaan malliin mukaan:
: <math> log(\mu_i) = \sum_{j=1}^p x_{ij} \boldsymbol{\beta_j} + log(t_i) </math>
, jossa ''T''<sub>i</sub> on aikaikkuna.
 
===Luokitteluaineistot===
Luokitteluasteikollisia vastemuuttujia voidaan käsitellä binomivasteiden yleistyksenä, missä vasteena on luokka. Järjestysasteikolliset muuttujat poikkeavat luokitteluasteikollisista siten, että luokkien välillä on selkeä, luonnollinen järjestys. Kuhunkin kovariaattiluokkaan ''i'' liittyy Q-ulotteinen vastevektori ''Y''<sub>i</sub> = [''K''<sub>i1</sub>/''m''<sub>i</sub>, ''K''_<sub>i2</sub>/''m''<sub>i</sub>,…,''K''<sub>iQ</sub>/''m''<sub>i</sub>].
 
[[Multinominaalijakauma]] on yleistys binomijakaumasta. Eli kun kategorioita on enemmän kuin kaksi kysessä on multinominaalijakauma. Jakauma on muotoa:
:<math>\frac{m_i!}{k_{i1}! k_{i2}!...k_{iQ}!} \pi_{i1}^{k_{i1}} \pi_{i2}^{k_{i2}}... \pi_{iQ}^{k_{iQ}}.</math>
Multinominaalijakauma ei sellaisenaan kuulu eksponenttiperheeseen, mutta se voidaan määrittää Poisson-jakauman kautta.
Olkoon ''K''<sub>1</sub>, ''K''<sub>2</sub>,…, ''K''<sub>Q</sub> ovat Poisson-jakautuneita satunnaismuuttujia odotusarvoilla ''λ''<sub>1</sub>, ''λ''<sub>2</sub>,…,''λ''<sub>Q</sub>. Summa ''m'' = ''K''<sub>1</sub> + ''K''<sub>2</sub> +…+ ''K''<sub>Q</sub> on Poisson-jakaumaa noudattava satunnaismuuttuja odotusarvolla ''λ'' = ''λ''<sub>1</sub> + ''λ''<sub>2</sub> +…+ ''λ''<sub>Q</sub>. Siten ehdollinen jakauma on multinominaalijakauman muotoinen:
 
: <math> f(k_1,k_2,...,k_Q;m)=(\frac{\lambda_1}{\lambda})^{k_1}(\frac{\lambda_2}{\lambda})^{k_2} ... (\frac{\lambda_Q}{\lambda})^{k_Q} \frac {m!} {k_1!k_2!...k_q!}. </math>
Koska <math>(\frac{\lambda_q}{\lambda})^{k_q} = \pi_q </math> kyseessä on mutinominaalijakauma.
 
On hyvä huomata, että mallista on jätettävä yksi luokka pois analyysia varten. Tämä poisjätetty luokka toimii ns. vertailuluokkana. Sopiva linkkifunktio lukumäärävasteille on '''logistinen linkki'''.
 
===Positiiviset vasteet===
Kun vastemuuttuja on jatkuva, joka voi saada vain positiivisia arvoja, puhutaan positiivisesta vasteesta. Ei-negatiivinen vaste voi saada myös nollahavaintoja. Usein positiivisen ja ei-negatiivisen vasteen jakauma on vino, johon on reagoitava. Malleissa, joissa on positiivinen vastemuuttuja, oletetaan variaatiokertoimen ''C.V'' olevan vakio.
 
Positiiviselle vasteelle on erilaisia mahdollisia jakaumia. Yksi vaihtoehto on [[Gamma-jakauma]], jolla ''C.V'' on vakio. Gamma-jakaumalle mahdollisia linkkifunktioita ovat:
* Käänteinen linkki: <math> g(\mu_i) = \frac{1}{\mu_i}. </math>
* Log-linkki: <math> \operatorname{g}(\mu_i) = log(\mu_i). </math>
Käänteinen linkkifunktio on Gamma-jakuman kanoninen linkkifunktio. Tällä linkillä on tarpeen rajoittaa regressiokerrointa ''ß'', ettei sovitteet ole negatiivisia. Log-linkkifunktion kohalla regressiokerrointa ''ß'' ei tarvitse rajoittaa.
 
Gamma-jakautuneelle vastemuuttujalle on mahdollista käyttää myös [[log-normaalijakauma]]a. Käytännössä vastemuuttujasta otetaan logaritmi ja oletetaan tämän muunnoksen noudattavan [[normaalijakauma]]a. Myös käänteinen [[Gaussianin jakauma]], [[Weibullin jakauma]] ja [[Pareto-jakauma]] ovat mahdollisia vaihtoehtoja positiiviselle vasteelle.
 
==Yleistetyt lineaariset mallit R:ssä==
[[R (ohjelmisto)|R-ohjelmistolla]] voidaan helposti estimoida erilaisia yleistettyjä lineaarisia malleja. Mallissa pitää määritellä vastemuuttuja ja selittävät muuttujat, eksponenttiperheen muoto, linkkifunktio ja käytetty aineisto. Jos linkkifunktio jätetään ilmoittamatta, ohjelmisto käyttää automaattisesti kanonista linkkiä.
 
Esimerkki:
 
glm(y~x, family=poisson(link=”log”), data = aineisto)
 
Lisätietoa yleistetyn lineaarisen mallin sovittamiseen R:ssä saa komennolla
 
?’glm’
 
==Lähteet==
* McCullagh, P.; Nelder, J.: Generalized Linear Models. Chapman and Hall, 1989. ISBN 0-412-31760-5.
* Karvanen Juha: Generalized Linear Models, http://wiki.helsinki.fi/download/attachments/35917349/lectures.pdf?version=1
* Heikkinen Juha: Yleistetyt lineaariset mallit, http://www.rni.helsinki.fi/~jmh/glm05/