Avaa päävalikko

Tilastollinen malli

Tilastollinen malli on pyrkimys yleistää tietyssä satunnaisotoksessa tai satunnaisesti valitussa osapopulaatiossa havaittu tapahtuma koskemaan koko populaatiota. Tilastollinen malli esittää tämän satunnaismuuttujien ja niihin liittyvien todennäköisyysjakaumien suhteen matemaattisesti erilaisten yhtälöiden avulla. Tyypillisesti sillä kuvataan, kuinka yksi tai useampi satunnaismuuttuja (selittävä/t muuttujat) selittää tarkasteltavan satunnaismuuttujan (selitettävä muuttuja) vaihtelua. Tilastollinen malli ei määräydy deterministisesti vaan se sisältää mallin parametreihin liittyvää satunnaisvaihtelua.

Matemaattisesti tilastollinen malli voidaan esittää parina , jossa on mahdollisten havaintojen joukko ja on :hyn liittyvien todennäköisyysjakaumien joukko. Tilastollisessa analyysissa oletetaan, että havaittu aineisto on generoitunut tietyistä joukon jakaumista. Tilastollinen malli mahdollistaa tilastollisen päättelyn, jonka avulla voidaan tehdään päätelmiä mallin hyvyydestä kuvaamaan tiettyä satunnaisilmiötä.

Erilaisia tilastollisia mallejaMuokkaa

Tilastollisia malleja voidaan jaotella eri tavoin. Yleinen erottelu perustuu mallin funktionaaliseen muotoon, jolloin mallit ryhmitellään lineaarisiin ja epälineaarisiin malleihin.

Mallien jako voi perustua myös kuvattavan ilmiön luonteeseen, spatiaaliset mallit kuvaavat alueellista satunnaisvaihtelua, kun taas temporaaliset mallit kuvaavat ajassa tapahtuvaa satunnaisvaihtelua. Mallit voivat kuitenkin sisältää komponentteja useammista eri osa-alueista, esimerkiksi spatio-temporaalinen malli kuvaa sekä ajassa tapahtuvaa, että alueellista satunnaisvaihtelua.

Lineaarinen malliMuokkaa

Yleisin lineaarinen mallinnusmenetelmä on lineaarinen regressioanalyysi. Lineaarinen regressiomalli voidaan esittää seuraavasti:
  ,
jossa   on havaintoon tai mittaukseen   liittyvä satunnaismuuttujan   arvo. Regressiokertoimia merkitään  , taustatietoa satunnaismuuttujilla   sekä jäännöksiä  . Lineaarisen regressioanalyysin yhteydessä jäännösten   oletetaan olevan riippumattomia ja samoin jakautuneita noudattaen  -jakaumaa. Lineaarisen regressioanalyysin sovelluksena voisi olla esimerkiksi energian kulutuksen kasvaminen ilman lämpötilan laskiessa.

Yleistetty lineaarinen malliMuokkaa

Yleistetyt lineaariset mallit kattavat usein käytetyt epälineaariset mallit. Epälineaarisista malleista useimmin käytettyjä ovat Logistinen regressio, Poisson-regressio sekä log-lineaariset mallit. Logistisella regressiolla voidaan analysoida dikotomisen vastemuuttujan regressiota, kun taas Poisson-regressio sopii lukumäärä vasteen analysointiin. Lineaarinen regressioanalyysi on yleistettyjen lineaaristen mallien erikoistapaus. Esimerkiksi koppakuoriaisten kuolemien lukumäärää hyönteismyrkyn vahvuuden suhteen voitaisiin mallintaa Poisson-regressiolla.

AikasarjamalliMuokkaa

Aikasarja-analyysissa tutkitaan temporaalisia malleja, joilla pyritään mallintamaan tietyn satunnaisen tapahtuman ajassa tapahtuvaa muutosta. Yksinkertainen malli voidaan kirjoittaa esimerkiksi seuraavasti:
  ,
jossa   on ajanhetkellä   mitattu tai havaittu satunnaismuuttujan   arvo ja parametrit  ,   ja   kuvaavat trendiä, kausivaihtelua sekä satunnaisvaihtelua tässä järjestyksessä. Aikasarjoja käytetään paljon esimerkiksi Ekonometriassa, jossa niillä voidaan mallintaa esimerkiksi yrityksen tuloksen kasvua ajan suhteen.

Spatiaalinen malliMuokkaa

Spatiaalisessa tilastotieteessä mallinnetaan satunnaismuuttujan   arvojen vaihtelua kaksi- tai kolmiulotteisessa avaruudessa. Tyypillisiä mallinnusmenetelmiä ovat pisteprosessit sekä spatiaalinen interpolointi. Yksinkertainen spatiaalinen malli voi olla esimerkiksi spatiaalinen regressiomalli:
  ,
jossa   on paikassa   mitattu tai havaittu satunnaismuuttujan   arvo. Regressiokertoimia merkitään vektorilla  , taustatietoa satunnaismuuttujavektorilla   sekä jäännöksiä vektorilla  . Tavalliseen regressiomalliin verrattuna spatiaalinen regressiomalli eroaa siten, että jäännökset eivät yleensä ole riippumattomia, vaan riippuvat läheisten jäännösten arvoista. Tästä seuraa, että perinteinen pienimmän neliösumman menetelmä ei toimi parametrien estimoinnissa. Spatiaalisia malleja käytetään esimerkiksi biologiassa mallinnettaessa eläin- tai kasvipopulaation kokoa tai elinympäristöä. Muita mahdollisia sovellusaloja ovat esimerkiksi maantiede ja geologia, joissa käyttökohteena ovat esimerkiksi peltojen ja metsien suhteellinen määrä tietyllä alueella tai kallioperän mallintaminen mahdollisten malmivarantojen löytämiseksi.

Katso myösMuokkaa

KirjallisuuttaMuokkaa

  • Lineaarinen regressioanalyysi ja yleistetyt lineaariset mallit:
    • Moore, D.S., McCabe, G.P. (2006). Introduction to the practice of statistics, 5th Edition, Freeman.
    • McCullagh, P., Nelder, J. (1989). Generalized Linear Models, Chapman and Hall. ISBN 0-412-31760-5.
  • Aikasarja-analyysi:
    • Brockwell, P.J. and Davis, R.A. (2003). Introduction to time series and forecasting, Springer.
    • Brockwell, P.J. and Davis, R.A. (2009). Time Series: Theory and Methods, Springer.
    • Chatfield, C. (2004). The Analysis of time series: an introduction, Chapman and Hall.
    • Shumway, R. and Stoffer, D. (2006). Time series analysis and its applications: with R examples, Springer
  • Spatiaalinen tilastotiede:
    • Bailey, T.C. and Gatrell, A.C. (1995). Interactive spatial data analysis, Longman.
    • Banerjee, S.,Carlin, B.P., Gelfand, A.E. (2003). Hierarchical modeling and analysis for spatial data, Chapman and Hall.
    • Ripley, B.D. (1981). Spatial statistics, Wiley.
    • Winkler, G. (2003). Image analysis, random fields and Markov chain Monte Carlo methods, 2nd Edition, Springer.