Pienimmän neliösumman menetelmä

matemaattisen optimoinnin menetelmä

Pienimmän neliösumman menetelmä (PNS-menetelmä, engl. ordinary least squares, OLS) on matemaattisen optimoinnin menetelmä, jolla pyritään löytämään aineistolle paras sovite. Pienimmän neliösumman menetelmässä regressiokertoimien estimaattorit määrätään minimoimalla jäännös- eli virhetermien neliösumma[1]. Saaduilla estimaateilla voidaan siten muodostaa estimoitu regressiosuora, eli malli kuvaamaan selitettävän muuttujan vaihtelua. Visuaalisesti tarkasteltuna PNS-menetelmällä saadaan laskettua havaintopisteiden pystysuuntainen etäisyys regressiosuorasta. Mitä pienempi etäisyys PNS-menetelmällä saadaan, sitä paremmin regressiosuora mallintaa havaintopisteiden käytöstä ja sitä parempi selittävyysaste mallilla on.

PNS-menetelmä on käytettävyytensä takia suosittu menetelmä, jonka sovelluskohteita ovat muun muassa ekonometria, aikasarja-analyysi, sähkötekniikka sekä monet muut empiirisen tutkimuksen alat.

Lineaarisen mallin tapauksessa pienimmän neliösumman menetelmä tuottaa tehokkaimman harhattoman estimaattorin, jos Gauss—Markov-oletukset ovat voimassa.

Yleinen lineaarinen malli muokkaa

Olkoon

  , jossa
  •   on selittävän muuttujan kiinteä, ei-satunnainen   arvo havaintoyksikössä i
  •   on selitettävän muuttujan y satunnainen arvo havaintoyksikössä i
  •   on jäännös- eli virhetermi havaintoyksikössä i
  •   on vakioselittäjän regressiokerroin
  •   ovat selittävän muuttujan x regressiokertoimet, jotka eivät riipu havaintoyksiköstä i

Nimitystä yleinen lineaarinen malli käytetään, sillä sen erikoistapauksina saadaan monia erilaisia tilastollisia malleja. PNS-menetelmää voidaan käyttää sellaisenaan yleiseen lineaariseen malliin, joka toteuttaa standardioletukset.

Standardioletukset muokkaa

Yleistä lineaarista mallia koskee tyypillisesti kuusi oletusta, joita kutsutaan standardioletuksiksi. Näiden oletusten ehtojen täyttyessä malliin voidaan soveltaa tilastollisen analyysin tavanomaisia estimointi- ja testausmenetelmiä mukaan lukien pienimmän neliösumman menetelmää.

  1. Selittäjän   arvot   ovat kiinteitä, ei-satunnaisia vakioita, eli selittäjien arvot ovat valittu
  2. Selittäjien välillä ei ole lineaarisia riippuvuuksia, eli toisin sanoen selittäjää   ei voida esittää muiden  :n arvojen lineaarikombinaationa
  • Ehto takaa sen, että PNS-menetelmä tuottaa yksiselitteiset ratkaisut regressiokertoimille  
  • Kaikkien virhetermien   odotusarvo on nolla. Tällöin taataan, ettei mallin rakenneosaan sisälly systemaattista virhettä  
  • Kaikilla virhetermeillä   on sama varianssi  , eli niin kutsuttu heteroskedastisuusoletus ei päde
  • Jäännös- eli virhetermit   eivät korreloi keskenään.
  • Jäännös- eli virhetermit   ovat normaalijakautuneita. Oletus vi. sisältää oletukset iii. ja iv.
  • Selittäjien satunnaisuus muokkaa

    Selittävät muuttujat saattavat saada satunnaisia, ei-kiinteitä arvoja. Näin käy esimerkiksi stokastisissa prosesseissa. Jos selittäjistä muodostuva matriisi X on satunnainen, PNS-menetelmä saattaa tuottaa harhaisia tai epätarkentuvia estimaattoreita regressiokertoimille. Tällöin voidaan testata, mikäli kiinteille selittäjille esitetty teoria toteutuu ehdollisesti.

    Lineaarisen mallin regressiokertoimien β PNS-estimaattori on

     , missä  .

    Jos matriisi on satunnainen, mutta standardioletuksen iii. mukaan virhetermin ε odotusarvo on nolla, estimaattorin ehdolliselle odotusarvolle pätee

     

    Vastaava ehdollinen korjaus muihin (iii-vi) yleisen lineaarisen mallin standardioletuksiin mahdollistaa oletusten yleistämisen myös satunnaisille selittäjille. Siitä huolimatta modifioidut ehdot ovat rajoittavia ja mahdollisesti epäpäteviä eri aineistoille, esimerkiksi aikasarjoille. Mikäli näin on, tällaisissa tilanteissa ei pidä käyttää PNS-menetelmää parametrien estimointiin, vaan hyödyntää dynaamisia regressiomalleja. Dynaamisilla regressiomalleilla on mahdollista huomioida paitsi havaitun prosessin (tyypillisesti jonkin aikasarjan) oma historia, myös muiden tunnettujen prosessin käyttäytymismallit ja näiden keskinäiset riippuvuudet.

    Regressiokertoimien estimointi pienimmän neliösumman menetelmällä muokkaa

    Yleinen lineaarinen malli muokkaa

     

    Neliösumman   minimointi tapahtuu osittaisderivoimalla regressiokertoimien suhteen ja merkitsemällä derivaatat nolliksi. Tämän tuloksena saadaan lineaarinen yhtälöryhmä regressiokertoimien suhteen. Yhtälöryhmässä on k+1 yhtälöä (k+1, sillä mukana on myös vakiokerroin  ), ja yhtälöryhmällä on yksikäsitteinen ratkaisu mikäli ylempänä esitetty standardioletus ii. pätee.

    Yhtälöryhmän ratkaisuna saadaan regressiokertoimien   PNS-estimaattorit. Estimaattorit voidaan merkitä vastaavilla latinalaisilla kirjaimilla  , siten että   on regressiokertoimen   PNS-estimaattori ja niin edelleen.

    Matriisiesitys muokkaa

    Olkoon   standardioletuksen ii.   täyttävä yleinen lineaarinen malli.

    • Regressiokertoimien vektorin β PNS-estimaattori on  
    • Jos standardioletukset i-iv. pätevät, niin   ja koska  , seuraa, että PNS-estimaattori b on regressiokertoimien vektorin β harhaton estimaattori.

    Katso myös muokkaa

    Lähteet muokkaa

    1. Mellin, Ilkka: Tilastolliset menetelmät math.aalto.fi. 2006.


    Tämä matematiikkaan liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.