Ero sivun ”Lineaarinen regressioanalyysi” versioiden välillä

[arvioimaton versio][arvioimaton versio]
Poistettu sisältö Lisätty sisältö
laajennettu
p →‎Oletukset: listaus paremmin
Rivi 17:
Lineaarisessa regressioanalyysissa tehdään yleensä seuraavat oletukset.
 
#* Virhetermit <math>\varepsilon_i</math> ovat jakautuneet siten, että suhteessa ''X<sub>i</sub>'':hin niiden odotusarvo on 0. Jos kahdesta satunnaismuuttujasta toisen ehdollinen odotusarvo suhteessa toiseen on 0, eli oletus pätee, on niiden välinen kovarianssi nolla eli ne ovat toisistaan riippumattomat. Oletuksen tarkoituksena on siis, että virhetermin sisältämät muut Y:hyn vaikuttavat tekijät eivät ole riippuvaisia X:stä. [[Satunnaiskoe|Satunnaiskokeessa]] kohteet sijoitetaan satunnaisesti koe- tai kontrolliryhmään, jolloin voidaan olla varmoja että X vaikuttaa riippumatta muista tekijöistä u - seruauksena virhetermin odotusarvo suhteessa X:ään on 0. Muuten kuin hallitulla kokeella kerätyssä havaintoaineistossa X:n ja u:n välinen riippumattomuus täytyy varmistaa muulla tavoin.<ref name="SW">Stock, J. & Watson, M.: ''Introduction to Econometrics''. Pearson, Boston, 2007.</ref>
 
#* ''X<sub>i</sub>'' ja ''Y<sub>i</sub>'' ovat [[Riippumaton ja identtisesti jakautunut|riippumatomia ja identtisesti jakautuneita]] (eli iid.) eri i:n arvoilla eli havainnosta toiseen. Tämä tarkoittaa, että yhden havainnon saamat arvot eivät riipu toisista havainnoista ja että havainnot ovat edustava otos havaintoaineistosta, eli niillä on sama jakautuma. Satunnaisotanta onnistuessaan takaa tavallisesti riippumattoman ja identtisen jakauman. Kaikki koejärjestelyt eivät toetuta iid-oletusta: jos esimerkiksi tehdään sarja kasvien istutuskokeita eri kastelumäärillä, jossa ''i'':s ruukku kastellaan aina samalla tavalla, ''X<sub>i</sub>'' ei ole riippumaton. Se olisi riippumaton jos kokeesta toiseen eri ruukkujen saamat kastelumäärät päätettäisiin satunnaisesti. Aikasarjoissa on tavallista, että muuttujat eivät ole riippumattomia, esim. korkotaso kuukaudesta toiseen vaihtelee, mutta ei täysin satunnaisesti, vaan kuukausina joita edellä on ollut matalakorkoinen kuukausi on todennäköisesti myös matala korko.<ref name="SW"/>
 
#* Suuria poikkeavia havaintoja ei ole. Merkittävät poikkeamat vääristävät PNS-menetelmää, koska neliösummat kasvavat poikkeaman koon neliönä, mikä kasvattaa eksponentiaalisesti poikkeamien merkitystä suhteessa niideen suuruuteen. Jos aineistossa esiintyy suuria poikkeamia, on syytä tarkastaa onko kyseessä selvästi mittaus- tai merkintävirhe. Monet regressioanalyysillä analysoitavat suureet sisältävät luonnollisen rajoitteen, esimerkiksi aika- ja pituusmittaukset eivät voi alittaa 0:aa ja matkustajamäärät eivät voi ylittää kulkuneuvon fyysistä kapasiteettia.<ref name="SW"/>
 
Lisäksi voidaan tehdä ns. Gauss-Markov -oletukset: