Ero sivun ”Bayesiläinen tilastotiede” versioiden välillä

8 727 merkkiä lisätty ,  9 vuotta sitten
ei muokkausyhteenvetoa
p (Botti poisti 17 Wikidatan sivulle d:q812535 siirrettyä kielilinkkiä)
Ei muokkausyhteenvetoa
'''Bayesiläinen tilastotiede''' on frekventistisen (eli klassisen) tilastotieteen ohella [[Tilastotiede|tilastotieteen]] toinen suuri [[paradigma]]. Bayesiläinen tilastotiede perustuu [[Bayesin teoreema|Bayesin kaava]]n soveltamiseen. Bayesilaisessa tilastotieteessä ajatellaan, että havainnot tunnetaan, joten ne ovat kiinteitä, ja todellisuus on tuntematon, johon liittyy epävarmuutta. Tarkoituksena on laskea [[a priori ja a posteriori|posteriori]]todennäköisyyksiä siten, että otetaan huomioon sekä ennakkotieto että havaintoaineiston informaatio. Bayesilainen tilastotiede on jo vanha keksintö, mutta vasta tietokoneiden kehityttyä riittävästi, sen käyttö alkoi yleistyä 1900 -luvun lopussa. Sitä mukaa myös itse ajattelutapa ja sovellukset ovat kehittyneet. Sekä Bayes-tilastotiede että Bayesin kaava ovat saaneet nimensä englantilaiselta harrastelija matemaatikko ja presbyteeripappi [[Thomas Bayes]]iltä, jota pidetään Bayes-päättelyn esi-isänä.
{{Lähteetön}}
'''Bayesiläinen tilastotiede''' on frekventistisen (eli klassisen) tilastotieteen ohella [[Tilastotiede|tilastotieteen]] toinen suuri [[paradigma]]. Bayesiläinen tilastotiede perustuu [[Bayesin teoreema|Bayesin kaava]]n P(A|B) = P(B|A)P(A) / P(B) soveltamiseen.
 
== BayesiläisetBayesin menetelmätkaava ==
 
Bayesin kaava voidaan kirjoittaa seuraavasti:
Bayesiläistä tilastotiedettä, tai bayesiläisiä tilastollisia menetelmiä, käytetään nykyään useimmilla aloilla, joilla tilastotiedettä sovelletaan.
:<math>P(B|A) = \frac{P(A|B)P(B)}{P(A)}</math>
missä
* P(A) on tapahtuman A [[a priori ja a posteriori|priori]]-todennäköisyys.
* P(A|B) on tapahtuman A [[a priori ja a posteriori|posteriori]]-todennäköisyys eli tapahtuman A todennäköisyys ehdolla B.
* P(B|A) on tapahtuman B todennäköisyys ehdolla A.
* P(B) on tapahtuman B priori-todennäköisyys.
 
Tapahtumat A ja B voisivat esimerkiksi olla seuraavia väitelauseita: B = ”Suomalaiset miehet ovat pitempiä kuin ruotsalaiset” ja A = ”Kun tutkitaan 5 suomalaista ja 5 ruotsalaista, kaikki ruotsalaiset ovat pidempiä”. Bayesiläisessä tilastotieteessä voidaan tällöin tehdä laskelmia siitä ''todennäköisyydestä että B on totta'', kun A havaitaan.
Bayesiläinen tilastotiede on tyypillisesti mallintavaa (engl. ''modelling'', ''inferential''), ei siis deskriptiivistä tilastotiedettä. Se pyrkii erilaisiin havaintoaineistoihin sisältyvän satunnaisvaihtelun selittämiseen ja analysointiin edistyneiden laskennallisten menetelmien avulla.
 
Bayesiläisessä tilastotieteessä laskujen ratkaisemiseen joudutaan usein käyttämään tietokoneella tehtäviä niin sanottuja [[Monte Carlo -simulaatio]]ita. Nykyään on kuitenkin käytettävissä valmisohjelmistoja, joiden avulla simulaatiomenetelmiä voidaan soveltaa monissa tapauksissa ilman, että ne joudutaan ohjelmoimaan joka kerta uudelleen.
 
== Peruskäsitteet ==
 
[[Thomas Bayes|Bayesin]] kaavan P(A|B) = P(B|A)P(A) / P(B) tapahtumat A ja B voisivat esimerkiksi olla seuraavia väitelauseita: A = ”Suomalaiset miehet ovat pitempiä kuin ruotsalaiset” ja B = ”Kun tutkitaan 5 suomalaista ja 5 ruotsalaista, kaikki ruotsalaiset ovat pidempiä”. Bayesiläisessä tilastotieteessä voidaan tällöin tehdä laskelmia siitä ''todennäköisyydestä että A on totta'', kun B havaitaan.
 
Klassisessa tilastotieteessä edellisen esimerkin kaltainen päättely on kielletty. Tämän paradigman mukaan parametrit (kuten esimerkin populaatiokeskiarvot), ovat kiinteitä lukuja, eikä niille voida määrätä mielekästä todennäköisyystulkintaa.
 
Bayesiläisessä tilastotieteessä käytetään usein Bayesin kaavasta johdettua kaavaa p(x|y) = p(y|x)p(x) / p(y). Tämä kaava on voimassa tietyt säännöllisyysehdot toteuttavilla satunnaismuuttujilla x ja y. Kaavassa p on geneerinen jakaumasymboli, joka voidaan tulkita esimerkiksi tiheysfunktioksi tai pistetodennäköisyysfunktioksi.
 
Edellisen kaavan avulla pyritään tekemään tilastollisia päätelmiä ''ei-havaittavasta'' muuttujasta x ''havaittavan'' muuttujan y perusteella. Ehdollistettua jakaumasymbolia p(x|y) sanotaan x:n ''posterioriksi''. Jakaumasymboli p(y|x) on ''likelihood'' (joskus myös ''otantajakauma'', ''otantamalli''), jota käytetään myös klassisen tilastotieteen uskottavuuspäättelyssä. Jakaumasymboli p(x) on puolestaan x:n ''priori''. Tekijä 1/p(y) ei vaikuta x:ää koskevaan tilastolliseen päättelyyn, vaan se on luonteeltaan normitusvakio.
 
== Priorijakauma, posteriorijakauma ja prediktiivinen jakauma ==
 
=== Merkintöjä ===
 
* <math>\mathbf{y}</math> on havaittu aineisto.
* <math>\boldsymbol{\theta}</math> on tuntematon parametri(vektori). Se voi olla myös puuttuva havainto(vektori) tai latentti muuttuja.
* <math>\boldsymbol{\eta}</math> on hyperparametri(vektori), joka voi olla tunnettu tai tuntematon.
 
=== Priorijakauma ===
 
Jotta voimme muodostaa posteriorijakauman tuntemattomalle <math>\boldsymbol{\theta}</math>, tarvitaan:
* malli havainnolle <math>p(\mathbf{y}|\boldsymbol{\theta})</math> ja
* priorijakauma tuntemattomalle <math>\boldsymbol{\theta}</math>.
Näistä ensimmäinen on uskottavuusfunktio <math>p(\mathbf{y}|\boldsymbol{\theta})=:L(\boldsymbol{\theta};\mathbf{y})</math>.
Priorijakauma on ennakkokäsitys tuntemattomasta <math>\boldsymbol{\theta}</math>, ja usein se riippuu hyperparametreistä <math>\boldsymbol{\eta}</math>. Priori voidaan esittää jakaumana <math>p(\boldsymbol{\theta}|\boldsymbol{\eta})</math>.
==== Konjugaattipriori ====
Jos priori valitaan siten, että se kuuluu samaan jakaumaperheeseen posteriorijakauman kanssa, sitä kutsutaan konjugaattiprioriksi. Tällöin syntyy myös laskennallisesti mukavampi tilanne. Jos havaintojen yhteisjakauma kuuluu exponenttiseen perheeseen, aina on olemassa konjugaattipriori (Morris, 1983). <ref>{{Lehtiviite
| Tekijä = Morris, Carl N.| Otsikko = Natural exponential families with quadratic variance functions: Statistical theory| Julkaisu = The Annals of Statistics
| Ajankohta = 1983| Numero = 2
| Sivut = 515-529| www = http://www.stat.harvard.edu/People/Faculty/Carl_N._Morris/NEF-QVF_1983_2240566.pdf}}</ref>
==== Epäinformatiivinen priori ====
Jos ilmiösta ei ole ennakkotietoa, prioriksi voidaan valita epäinformatiivinen priori, joka vaikuttaa mahdollisimman vähän posteriorijakaumaan.
Esimerkiksi seuraavalla tavalla:
:<math>\mathbf{y}|\boldsymbol{\theta} \sim N(\boldsymbol{\theta},\mathbf{v})</math>, missä <math>\mathbf{v}</math> tunnettu
:<math>\boldsymbol{\theta} \sim N(0,\mathbf{w})</math>, <math>\mathbf{w}</math> suuri.
Yksi vaihtoehto on myös Jeffreys'in priori:
:<math>p(\boldsymbol{\theta}) = \left[J(\boldsymbol{\theta})\right]^{1/2}</math>, missä <math>\left[J(\boldsymbol{\theta})\right]</math> on havainnon Fisher informaatio:
<math>\left[J(\boldsymbol{\theta})\right] = E\left[\left(\frac{\partial log(p(\mathbf{y}|\boldsymbol{\theta}))}{\partial\boldsymbol{\theta}}\right)^2|\boldsymbol{\theta}\right] = -E\left[\frac{\partial^2 log(p(\mathbf{y}|\boldsymbol{\theta}))}{\partial\boldsymbol{\theta}^2}|\boldsymbol{\theta}\right]</math>.
 
=== Posteriorijakauma ===
 
Bayesin kaavasta saadaan posteriorijakaumaksi seuraava:
:<math>p(\boldsymbol{\theta}|\mathbf{y}) = \frac{p(\boldsymbol{\theta}|\boldsymbol{\eta})\,p(\mathbf{y}|\boldsymbol{\theta})}{p(\mathbf{y})} </math>.
missä jatkuvan jakauman tapauksessa
:<math>p(\mathbf{y})={\int\,p(\boldsymbol{\theta'}|\boldsymbol{\eta})\,p(\mathbf{y}|\boldsymbol{\theta'})\,d\boldsymbol{\theta'}}</math>,
ja diskreetin jakauman tapauksessa
:<math>p(\mathbf{y})=\sum_{\boldsymbol{\theta'}}\,p(\boldsymbol{\theta'}|\boldsymbol{\eta})\,p(\mathbf{y}|\boldsymbol{\theta'})</math>.
 
Joskus tulee laskennallisia ongelmia nimittäjän integroinnissa, mutta jos ollaan kiinnostuneita vain posteriorin maksimista <math>\boldsymbol{\theta}</math>:n suhteen, sitä ei tarvita. Voidaan kirjoittaa:
:<math>p(\boldsymbol{\theta}|\mathbf{y})\,\propto\,p(\boldsymbol{\theta}|\boldsymbol{\eta})\,p(\mathbf{y}|\boldsymbol{\theta})</math>.
Suurimman uskottavuuden estimaatin laskemiseksi <math>\boldsymbol{\theta}</math>:lle riittää maksimoida lauseke <math>p(\boldsymbol{\theta}|\boldsymbol{\eta})\,p(\mathbf{y}|\boldsymbol{\theta})</math> <math>\boldsymbol{\theta}</math>:n suhteen, sillä nimittäjä <math>p(\mathbf{y})</math> ei riipu siitä.
 
=== Prediktiivinen jakauma ===
Olkoon <math>\tilde{y}</math> uusi havainto, joka on riippumaton havainnoista <math>\mathbf{y}</math>. Prediktiivinen jakauma (ennustejakauma) <math>\tilde{y}</math>:lle on <math>\tilde{y}</math>:n ehdollinen jakauma ehdolla <math>\mathbf{y}</math>, ja se saadaan seuraavasti:
<math>p(\tilde{y}|\mathbf{y}) = \int\,p(\mathbf{\tilde{y}}|\boldsymbol{\theta},\mathbf{y})\,p(\boldsymbol{\theta}|\mathbf{y})\,d\boldsymbol{\theta} = \int\,p(\mathbf{\tilde{y}}|\boldsymbol{\theta})\,p(\boldsymbol{\theta}|\mathbf{y})\,d\boldsymbol{\theta}</math>
 
== Posteriorijakauman approksimaatiot ==
 
Jos posteriorijakauman laskeminen analyyttisesti ei onnistu, useimmiten siksi, että nimittäjässä on moniulotteinen integraali, joka on erittäin vaikea laskea, on olemassa myös muita keinoja. Kun havaintoja on paljon, posteriorijakaumaa voidaan approksimoida normaalijakauma-approksimaatiolla:
:<math>\boldsymbol{\theta} \sim N(\hat{\boldsymbol{\theta}},I(\hat{\boldsymbol{\theta}})^{-1})</math>, missä
<math>\hat{\boldsymbol{\theta}}</math> on suurimman uskottavuuden estimaatti ja <math>I(\hat{\boldsymbol{\theta}})</math> on havaittu informaatio(matriisi).
Muita keinoja approksimoida posteriorijakaumaa ovat numeerinen integrointi, posteriorijakauman integraalin laskeminen Laplace'n menetelmällä ja Markovin ketju Monte Carlo -simulointi.
 
== Posteriorijakauman simolointi MCMC-menetelmällä ==
 
Posteriorijakauman ratkaisemiseen, erityisesti monimutkaisissa ja hierarkisissa malleissa, joudutaan usein käyttämään MCMC-menetelmää eli [[Markovin ketju]] [[Monte Carlo -simulaatio|Monte Carlo]] -menetelmää. Menetelmän idea:
Kun oletetaan, että <math>\lim_{n\to\infty}p(\theta^n=\theta) = \pi(\theta)</math> jakaumasta <math>\pi(\theta)</math> riippumatta, niin voidaan edetä seuraavasti:
# Valitaan alkutila <math>\theta^0</math>.
# Simuloidaan ketjua <math>\theta^1, \dots ,\theta^N</math>
# Kun ketjua on simuloitu riittävästi, ketjun <math>\theta^{m+1}, \dots ,\theta^N</math> voidaan olevan otos invariantista jakaumasta <math>\pi(\theta)</math>.
 
MCMC-menetelmiä ovat esimerkiksi Metropolisin algoritmi ja sen muunnelma [[Metropolisin ja Hastingsin algoritmi]].
 
Kun oletetaan, että on pystytty konstruoimaan posteriori
<math>p(\theta|y)\,\propto\,p(\theta)\,p(y|\theta)</math>,
Metropolisin algoritmin idea posteriorijakauman simuloimiseksi on seuraavanlainen:
# Valitaan alkuarvaus <math>\theta^0</math>.
# Oletetaan, että arvot <math>\theta^1, \dots ,\theta^n</math> ovat konstruoitu ketjusta.
# Ehdotetaan <math>\theta^{n+1}</math>:n arvoksi arvoa <math>\theta'</math> symmetrisestä ehdotusjakaumasta <math>q(\theta'|\theta^n)</math>. Ehdotus hyväksytään todennäköisyydellä:
:<math>\alpha_M=min\left\{1,\frac{p(\theta'|y)}{p(\theta^n|y)}\right\}</math>. Jos ehdotus hyväksytään, <math>\theta^{n+1}=\theta'</math>, muuten <math>\theta^{n+1}=\theta^n</math>.
 
 
Toinen tapa konstruoida ketjua, on Gibbsin algoritmi:
Olkoon <math>\theta=(\theta_1,\dots,\theta_b)</math> parametrivektori, ja merkitään <math>\theta_{-i}=(\theta_1,\dots,\theta_{i-1},\theta_{i+1},\dots,\theta_b)</math>.
Oletetaan lisäksi, että
<math>p(\theta_i|\theta_{-i},y)=\frac{p(\theta|y)}{p(\theta_{-i}|y)}</math>
voidaan helposti laskea.
# Valitaan alkuarvo <math>\theta^0</math>.
# Oletetaan, että on simuloitu <math>\theta^n</math>.
# Päivitetään se komponenteittain eli simuloidaan jokainen <math>\theta_{i}^{n+1}</math>, ''i=1,\dots,b'', jakaumasta <math>p(\theta_i|\theta_1^{n+1},\dots,\theta_{i-1}^{n+1},\theta_{i+1}^{n},\dots,\theta_{b}^{n})</math>. Näin saadaan <math>\theta^{n+1}</math>.
 
Näidenkin lisäksi on vielä useita eri menetelmiä ja edellisten muunnelmia. Nykyään on käytettävissä valmisohjelmistoja, joiden avulla simulaatiomenetelmiä voidaan soveltaa monissa tapauksissa ilman, että ne joudutaan ohjelmoimaan joka kerta uudelleen. Esimerkiksi Gibbin algoritmille on olemassa ilmainen ohjelma nimeltään BUGS (''Bayesian inference Using Gibbs Sampling'').
 
== Mallikritiikki ==
 
Oleellinen osa Bayes-tilastotiedettä on mallikritiikki, ja se pohjautuu pitkälti prediktiiviseen jakaumaan <math>p(\tilde{y}|\mathbf{y})</math>.
Joitakin lähestymistapoja mallikritiikille:
* [[Herkkyysanalyysi]]
** Tehdään kohtuullisia muutoksia oletuksiin, ja katsotaan miten ne vaikuttavat posterioriin ja lopputuloksiin.
* Ristiin validointi
** Aineistosta jätetään osa pois, ja jäljelle jäävästäe aineistosta lasketaan malli ja prediktiivinen jakauma, johon sitten pois jätettyä aineistoa verrataan.
* Mallien vertailu
** Jos on monta vaihtoehtoista mallia, niitä voi vertailla esimerkiksi poikkeamaindeksin (DIC) avulla.
* Bayes-tekijä
 
== Paradigman edut ja haitat ==
Jotkut tilastotieteen klassisen paradigman kannattajat ovat esittäneet, että priorin ja posteriorin käsitteet ovat ontologisesti ongelmallisia, tai peräti kokonaan virheellisiä. Toisaalta bayesiläistä paradigmaa on puolustettu informaatio- ja päätösteoreettisilla perusteluilla. Monien kannattajiensa mielestä bayesiläinen paradigma antaa tilastotieteelle teoreettisen perustan, joka on yhtenäisempi ja helpommin omaksuttava, kuin klassisen paradigman antama perusta.
 
== Viitteet ==
[[Luokka:Tilastotiede]]
{{Reflist}}
 
== Lähteet ==
* Carlin, Bradley P. And Louis,Thomas A. (1996).''Bayes and Empirical Bayes Methods for Data Analysis'', ensimmäinen painos. Chapman & Hall. ISBN 0 412 05611 9
4

muokkausta