Ero sivun ”Lineaarinen regressioanalyysi” versioiden välillä
[katsottu versio] | [katsottu versio] |
Poistettu sisältö Lisätty sisältö
typo |
|||
Rivi 18:
* Virhetermit <math>\varepsilon_i</math> ovat jakautuneet siten, että suhteessa ''X<sub>i</sub>'':hin niiden odotusarvo on 0. Jos kahdesta satunnaismuuttujasta toisen ehdollinen odotusarvo suhteessa toiseen on 0, eli oletus pätee, on niiden välinen kovarianssi nolla eli ne ovat toisistaan riippumattomat. Oletuksen tarkoituksena on siis, että virhetermin sisältämät muut ''Y'':hyn vaikuttavat tekijät eivät ole riippuvaisia ''X'':stä. [[Satunnaiskoe|Satunnaiskokeessa]] kohteet sijoitetaan satunnaisesti koe- tai kontrolliryhmään, jolloin voidaan olla varmoja että ''X'' vaikuttaa riippumatta muista tekijöistä <math>\varepsilon</math> - seurauksena virhetermin odotusarvo suhteessa ''X'':ään on 0. Muuten kuin hallitulla kokeella kerätyssä havaintoaineistossa ''X<sub>i</sub>'':n ja <math>\varepsilon_i</math>:n välinen riippumattomuus täytyy varmistaa muulla tavoin. Jos ''Y'':hyn vaikuttaa seikka, joka korreloi ''X'':n kanssa ja jota ei ole otettu mukaan regressioanalyysiin omana muuttujanaan, syyllistytään [[puuttuvan muuttujan harha]]an. Tällöin estimaattori on harhainen ja tarkentumaton. Ongelma on korjattavissa sisällyttämällä kyseinen muuttuja regressioanalyysin yhtälöön.<ref name="SW">Stock, J. & Watson, M.: ''Introduction to Econometrics''. Pearson, Boston, 2007.</ref>
* ''X<sub>i</sub>'' ja ''Y<sub>i</sub>'' ovat [[Riippumaton ja identtisesti jakautunut|
* Suuria poikkeavia havaintoja ei ole. Merkittävät poikkeamat vääristävät PNS-menetelmää, koska neliösummat kasvavat poikkeaman koon neliönä, mikä kasvattaa eksponentiaalisesti poikkeamien merkitystä suhteessa niideen suuruuteen. Jos aineistossa esiintyy suuria poikkeamia, on syytä tarkastaa onko kyseessä selvästi mittaus- tai merkintävirhe. Monet regressioanalyysillä analysoitavat suureet sisältävät luonnollisen rajoitteen, esimerkiksi matkustajamäärät eivät voi alittaa 0:aa eivätkä ylittää kulkuneuvon fyysistä kapasiteettia.<ref name="SW"/>
* Useamman muuttujan regressioanalyysissä oletetaan, ja itse asiassa analyysin onnistuminen edellyttää, että muuttujien välillä ei ole täydellistä [[multikollineaarisuus|multikollineaarisuutta]] eli että yksi muuttujista olisi täydellisessä lineaarisessa riippuvuussuhteessa toiseen. Yleensä täydellinen multikollineaarisuus on merkki siitä että tavalla tai toisella jokin muuttuja on tullut edustetuksi kaksi kertaa regressioyhtälössä, esimerkiksi eri mittayksiköissä.<ref name="SW"/>
|