Logistinen regressio

Logistinen regressio (engl. logistic regression) on tilastollinen malli, joka on erityistyyppi tavanomaisesta regressiomallista. Logistisessa regressiomallissa selitettävä muuttuja on dikotominen eli kaksiluokkainen muuttuja. Selitettävä muuttuja saa arvon 0 tai 1 siten, että se muuttujan luokka, jota halutaan ennustaa, saa arvon 1. Logistinen regressiomalli on siis yleistetty lineaarinen malli, jonka linkkifunktio on . Selittävät muuttujat voivat olla suhdeasteikollisia, järjestysasteikollisia tai luokiteltuja.

Logistisella regressioanalyysillä mallinnetaan vastemuuttujan ja selittävien muuttujien suhdetta. Toisin kuin tavanomaisessa regressiomallissa, vasteen odotusarvo on riski (eng. odds). Riski on todennäköisyys, että jokin tapahtuma tapahtuu suhteessa siihen, että se ei tapahdu;
[1]

Malli muokkaa

Oletetaan, että käytössä on   kappaletta selittäviä muuttujia. Merkitään vasteen odotusarvoa  . Tehdään vasteen odotusarvolle logistinen muunnos

  , missä


  .


Silloin logistinen regressiomalli on   [2] , josta ratkaisemalla   saadaan


 

 


 .


Mallin sovittaminen muokkaa

Yleiselle lineaariselle mallille, jolle vastemuuttuja on jatkuva, mallin sovitus voidaan tehdä pienimmän neliösumman menetelmällä (PNS). Koska logistisella regressiomallilla on dikotominen vaste, menetelmällä estimoitavilla parametreillä   ei ole tiettyjä ominaisuuksia.Mallin sovitus tehdään Suurimman uskottavuuden menetelmällä (SU), joka on yleistys PNS-menetelmästä.[2] Sitä varten muodostetaan mallille uskottavuusfunktio: oletetaan, että käytössä on usean selittäjän malli. Oletetaan myös, että yksittäinen   noudattaa Bernoulli-jakaumaa   ja että vasteet ovat riippumattomia. Silloin niiden summa   noudattaa jakaumaa  . Uskottavuusfunktio on

 

Logaritminen uskottavuusfunktio on
 .

Sijoitetaan kaavaan  , derivoidaan   ja asetetaan derivaatta nollaksi. Saadaan

  josta ratkaistaan   numeerisesti.[3]

Devianssi muokkaa

Devianssin avulla voidaan tutkia, kuinka hyviä valitun mallin ennusteet ovat. Devianssi määritellään

 

jossa saturoitu malli tarkoittaa mallia, joka sisältää yhtä monta parametria, kuin havaintoja on, ja sopii siten aineistoon täydellisesti (virhetemit ovat nollia). Devianssilla verrataan siis, kuinka hyvin sovitetun mallin arvot eroavat saturoidusta mallista (verrattavissa lineaarisen regressiomallin jäännösneliösummien vertailuun). Mitä pienempi devianssi on, sitä paremmin malli sopii aineistoon. Devianssin avulla voidaan laskea uskottavuusosamäärän testi, jolla selvitetään, ovatko mallin parametrit   merkitseviä, eli selittävätkö ne todella vasteen vaihtelua. [4]


Esimerkki muokkaa

Halutaan tutkia, miten ikä vaikuttaa riskiin sairastua sepelvaltimotautiin. Aineisto sisältää muuttujat
 = koehenkilön tunniste (koehenkilölle  )
 = koehenkilön ikä
 = tieto siitä, onko henkilö sairastunut sepelvaltimotautiin vai ei. Jos henkilö on sairastunut, CHD=1 ja jos henkilö ei ole sairastunut, CHD=0.

Malli on

 


eli  


Aineisto
ID AGE CHD
1 20 0
2 23 0
3 24 0
4 25 0
5 25 1
6 26 0
7 26 0
8 28 0
9 28 0
10 29 0
... ... ...
99 65 1
100 69 1


Suurimman uskottavuuden estimoinnilla saadaan  , joka on mallin vakiotermi ja  , joka on kulmakerroin muuttujalle  .
[2]
Malli on siis  .

Tulkinta: Kun verrataan kahta henkilöä, joista toinen on vuoden verran vanhempi, kuin toinen, vanhemmalla henkilöllä on  -kertainen todennäköisyys sairastua sepelvaltimotautiin (suhteessa siihen, että ei sairastu), kuin nuoremmalla henkilöllä.


Lähteet muokkaa

  1. Yan, X.: Linear Regression Analysis : Theory and Computing (2009).
  2. a b c Hosmer, D. W., Lemeshow, S. Sturdivant, R. X.: Wiley Series in Probability and Statistics : Applied Logistic Regression (3rd Edition) (2013).
  3. Nyblom, J.: Yleiset lineaariset mallit (2014). Luentomoniste. Lähde kuollut, vuoden 2015 versio täällä.
  4. Larose, D: Data minig and methods and models (2006).