Variogrammi eli variogrammifunktio on stokastiikassa ja tilastotieteessä käytettävä riippuvuuden määrän ilmaisemiseen käytettävä mitta. Stokastisissa prosesseissa, jotka muistuttavat esimerkiksi aikasarjoja, käytetään autokorrelaatiota prosessin sisäisen riippuvuuden mittaamiseksi. Satunnaiskentissä, jotka muodostetaan moniston avulla, satunnaismuuttujien väliset riippuvuus ilmaistaan spatiaalisen autokorrelaation avulla. Korrelaatiota ilmaisevan variogrammin rinnalla käytetään myös korrelogrammia ja kovarianssifunktiota.[1][2][3]

Kovarianssia käytetään sellaisten satunnaiskenttien yhteydessä, joilla on olemassa äärelliset odotusarvot ja toiset momentit. Jos toiset momentit ovat äärettömät, voidaan vielä käyttää variogrammia riippuvuuden määrän ilmaisemiseen. Variogrammeja käytettiin aluksi kaivosteollisuuden parissa geostatistiikassa, jonka puitteissa havaittiin, kuinka satunnaiskentän toinen momentti kasvoi kaivosalueen laajetessa liikaa. Variogrammien käyttö mahdollisti erityisesti kriging-estimoinnin, jolla suunniteltiin kaivoksen tuotantoa, mutta sen käyttö on levinnyt muillekin ympäristön suureita estimoiville aloille.

Semivariogrammi[2] on variogrammin puolikas, vaikka joissakin teksteissä nämä kaksi sekoitetaan toisiinsa. Tässä artikkelissa variogrammia merkitään ja semivariogrammia (lue: "gamma"). Vaikka variogrammilla on tärkeä asema geostatistiikan teoriassa, käytetään kuitenkin sovelluksissa lähinnä semivariogrammia.[1][4][3]

Määritelmä muokkaa

Satunnaiskentässä  , missä  , eri kohdissa sijaitsevien satunnaismuuttujien erotuksen   varianssi (lyhennetään Var) antaa satunnaismuuttujien variogrammin arvon

 

Koska satunnaismuuttujan   varianssi määritellään toisen keskusmomentin avulla

 

voidaan erotuksen varianssi myös ilmaista keskusmomentin avulla

 .

Tätä kutsutaan yleisesti variogrammiksi. Sovelluksissa käytetään yleisemmin semivariogrammia, joka on variogrammin puolikas  

Tätä variogrammin yleistä määritelmää voidaan edelleen tarkentaa, mikäli saadaan tarkempia tietoja satunnaiskentän stationäärisyydestä ja laadusta. Mikäli variogrammin arvot riippuvat vain satunnaismuuttujien välisestä etäisyysvektorista  voidaan edelliset lausekkeet kirjoittaa

 

tai

 

Stationääriset satunnaiskentät muokkaa

Näin määriteltynä huomioidaan se mahdollisuus, että variogrammilla voi olla eri arvoja jokaisen lähiympäristön pisteparin välillä. Käytännön sovellutuksissa tällainen teoreettinen variogrammi ei ole käyttökelpoinen, sillä sen selville saaminen näytteitä tutkimalla on epätodennäköistä. Optimaalinen toive on, että satunnaiskenttä on jossakin määrin stationäärinen.[3]

On olemassa tilastollisia testejä riippuvuuksien paljastamiseksi. Eräs sellainen on Mantelin testi.[4]

Stationäärisyyksiä muokkaa

Vahva stationäärisyys (engl. Stationary random function) tarkoittaa sitä, että jokainen satunnaiskentän satunnaismuuttuja on jakaumaltaan identtinen toisen satunnaismuuttujan kanssa ja että mikä tahansa satunnaismuuttujien kokoelman yhteisjakauma on identtinen missä tahansa muualla avaruudellisesti samoin järjestäytyneen satunnaismuuttujaparven yhteisjakaumaan kanssa. Yksinkertainen seuraus on, että kaikki satunnaismuuttujien momentit ovat samat ja niistä erityisesti odotusarvo ja kovarianssi. Jos odotusarvo on äärellisinä olemassa ja se on   voidaan odotusarvo vähentää jokaisen satunnaismuuttujan arvosta pois  . Näin saadun modifioidun satunnaiskentän satunnaismuuttujien   odotusarvoksi tulee nolla   Kovarianssi pisteiden   ja   välille lasketaan silloin

 

jolloin varianssi tulee olla arvoltaan sama kuin kovarianssi etäisyydellä   eli

 

Viimeinen ehto on myös kovarianssifunktion olemassaoloehto, sillä sitä ei ole olemassa ilman äärellistä varianssia. Vahvasti stationäärisen satunnaiskentän riippuvuusilmiö levittäytyy samanlaisena läpi avaruuden sen eri suunnissa ja on helposti määritettävissä tilastollisin keinoin. Käytännön sovellutuksissa tällaisia kenttiä ei kuitenkaan juuri tavata ja siksi työhypoteesiksi otetaan heikommin stationäärisiä satunnaiskenttiä.[3][5][6]

Heikosti stationäärinen (engl. Second order stationary hypothesis) satunnaiskenttä ei ole yhtenäisesti jakautunut, koska satunnaiskentän satunnaismuuttujilla on vain samat odotusarvot ja varianssit (kaksi ensimmäistä momenttia) muttei samoja jakaumia. Tämä vastaa monien kenttätöiden tuloksia, jossa tilastoanalyysin tuloksena onnistutaan saadaan vain kaksi ensimmäistä momenttia. Muita satunnaiskentän piirteitä ei aina ole käytettävissä. Tarkemmissa geostatistisissa analyyseissä pyritään selvittämään vielä satunnaismuuttujien riippuvuuden määrä ja laatu. Lisäselvityksen tuloksena esitetään usein korrelogrammi tai kovarianssifunktio, jotka ilmaisevat pitoisuuden tai muun suureen jatkuvuuden määrää ja laatua. Tämäkään stationäärisyys ei kaikissa kenttätöissä toteudu. Esimerkiksi odotusarvo voi riippua paikasta eikä ole kaikkialla vakio ja eräillä kentillä satunnaismuuttujien varianssi kasvaa tutkimuskentän laajentuessa. Varianssi voi siis olla ääretön äärettömän laajalla tutkimuskentällä. Seuraava satunnaiskentän stationäärisyysehto onkin tällaisia tapauksia varten.[3][5]

Sisäisesti stationäärinen (engl. Intrinsic hypothesis) satunnaiskenttä määritellään modifioidun satunnaiskentän avulla. Jos satunnaiskentän satunnaismuuttujien erotukset muodostavat heikosti stationäärisen satunnaiskentän, voivat erotusten varianssit olla äärellisinä olemassa. Näitä tapauksia varten lasketaan satunnaismuuttujien välisten riippuvuuksien määrä variogrammin avulla. Variogrammissa tietyn erotusvektorin erottamien satunnaismuuttujien varianssi muodostaa variogrammifunktion yhden arvon. Laskemalla kaikkien eri etäisyydellä olevien satunnaismuuttujien erotuksen varianssin saadaan variogrammin kaikki arvot.[3][5][6]

Koska variogrammi kehitettiin nimeen omaan sisäisesti stationäärisen satunnaiskentän riippuvuusfunktioksi, käytetään sitä siinä kovarianssifunktion sijasta. Se on kuitenkin myös käyttökelpoinen stationäärisemmissä satunnaiskentissä, joten seuraavassa käsitellään sen ominaisuuksia myös niissä.

Vahvasti stationääriset variogrammit muokkaa

Vahvan stationäärisyyden satunnaiskentässä  , jossa on olemassa äärellinen odotusarvo   voidaan odotusarvo vähentää jokaisen satunnaismuuttujan arvosta pois  . Tämän satunnaismuuttujien odotusarvo on silloin nolla   Jos satunnaiskentän   toiset momentit ovat äärellisinä olemassa, saadaan

 

ja

  [5]

Variogrammi on tällaisessa satunnaiskentässä

 
 
 
Kovarianssi- ja variogrammifunktioiden suhteesta, kun varianssi on äärellisenä olemassa.

eli variogrammi on kovarianssifunktion yhdistelmäfunktio

 

Semivariogrammi on silloin

  [5][6]

Yleensä kovarianssit saavat suurimman arvonsa arvolla   ja muilla etäisyyden  arvoilla pienempiä arvoja. Tämän vuoksi variogrammi on vahvasti stationäärisessä satunnaiskentässä ylhäältä rajoitettu funktio. Jos kovarianssi saa vain positiivisia arvoja, on semivariogrammin yläraja[6]

 

ja jos riippuvuus voi olla myös käänteistä ja   niin yläraja on kaksinkertainen

 

Heikosti stationääriset variogrammit muokkaa

Heikon stationäärisyyden satunnaiskentässä on vahvaan stationäärisyyteen verrattuna suuri ehtojen huojennus se, että vain satunnaiskentän odotusarvosta ja kovarianssifunktiosta on selvä käsitys, mutta jakaumien laadusta ei tiedetä mitään. Odotusarvot ovat tietyn rajatun ympäristön   sisällä vakio eli   kun  . Kovarianssin arvot ovat saman ympäristön sisällä

 

ja sen vuoksi myös varianssi on äärellisenä olemassa. Koska vahvasti stationäärisessä satunnaiskentässä johdetaan odotusarvon, kovarianssifunktion ja variogrammin lausekkeet samanhenkisten olettamusten varassa, pätevät ne tässäkin stationäärisyyden hypoteesissä.[5]

Jos odotusarvo ei olekaan vakio, vaan muuttuu paikan mukaan muodostaen esimerkiksi pitoisuuksien trendin, eivät edellä kuvatut olettamukset pidä enää paikkaansa. Toisaalta varianssi voi olla arvoltaan jopa ääretön, jolloin kovarianssifunktio ei esitä riippuvuutta luotettavalla tavalla. Silloin tulee riippuvuusfunktiona käyttää variogrammia.

Sisäisen stationäärisyyden variogrammi muokkaa

Mikäli lähekkäisissä pisteissä olevat satunnaismuuttujat muistuttavat laadultaan ja arvoiltaan toisiaan ja jos esimerkiksi samat odotusarvot, äärelliset toiset momentit tai varianssit eivät vaihtele satunnaiskentän eri osissa merkittävästi, voidaan silloin hyödyntää tilastollisesti koko satunnaiskentän mitattuja arvoja. Odotusarvot voivat muodostaa trendin eli odotusarvot ovat tietyssä suunnassa paikan funktio, joka näkyy jopa erotuksissa

 .

Tällaisissa tapauksissa vain variogrammi olemassa

 

ja se voidaan estimoida näyteotoksen perusteella koko satunnaiskentälle yhteisesti.[5]

Jos satunnaiskenttä on riittävän stationäärinen, riippuu variogrammi vain suuntavektorista   (anisotropia)

 

tai, kun satunnaismuuttujien erotus on sama kaikissa suunnissa, variogrammi riippuu vain pisteiden välisestä etäisyydestä   (isotropia)

 

Sekä variogrammista että semivariogrammista käytetäänkin sovelluksissa kahta viimeiseksi esitettyä muotoa

 

ja

  [5]

Yleensä satunnaiskenttä ei toteuta heikon stationäärisyysden ehtoja ja silloin variogrammi ei ole enää ylhäältä rajoitettu. Semivariogrammi muistuttaa silloin enemmän logaritmista   (de Wijsin malli) tai lineaarista   mallia.[5]

Variogrammin tulkinta muokkaa

Variogrammi antaa tavallisesti pienimmän arvon satunnaismuuttujille, jotka sijaitsevat lähellä toisiaan. Niiden riippuvuus on suurta ja sen vuoksi niiden saamat arvot ovat lähellä toisiaan. Silloin satunnaismuuttujien erotuksen varianssi on myös pieni. Riippuvuus vähenee, kun satunnaismuuttujat etääntyvät toisistaan, jolloin variogrammin arvot suurenevat. Variogrammin arvo origossa onkin nolla ja se kasvaakin varsin yleisesti etäisyyden kasvaessa.[6]

Variogrammin estimaattori muokkaa

Variogrammin arvojen estimointi suoritetaan laskemalla sen arvoja näytteistä suoritetulla otoksella. Otos muodostetaan valikoimalla sopivan etäisyyden päässä toisistaan olevia näytteitä. Jos mitattava suure ei toista itseään (temperospatiaaliset satunnaismuuttujat) vaan se esiintyy pitkän aikaa samanlaisena, sanotaan sillä olevan vain yksi käytettävissä oleva reaalisaatio eli ulostulo. Silloin tulee satunnaiskentän olla stationäärinen ja kaikki näytteet edustavat tulkinnan mukaan samalla tavalla jakautuvia satunnaismuuttujia. Silloin näistä muodostettu variogrammi on luotettava riippuvuuden mitta. Satunnaismuuttujien   reaalisaatioita merkitään tässä  .[5]

Määritelmä muokkaa

 
Aineiston semivariogrammiarvot (vihreät pisteet) on luokiteltu viiteen eri etäisyysluokkaan, joiden arvojen keskiarvot muodostavat tilastollisesti tasoitetun semivariogrammin arvot (mustat pisteet).

Variogrammi estimoidaan mitatuista näytteistä laskemalla samalla etäisyydellä  sijaitsevien näytteiden arvojen erotukset  . Sama etäisyys voidaan korvata samalla etäisyysvälillä, jolloin aineisto on etäisyyden mukaan luokiteltua. Variogrammin estimaatti   on näiden erotusten neliöiden keskiarvo. Semivarigrammin estimaatti   (merkitään myös   [2]) on variogrammin puolikas:

  [3][2][6][7]

missä   on etäisyydellä   olevien näytteiden lukumäärä. Jos satunnaiskenttä on anisotropinen, huomioidaan myös etäisyysvektorin suunta semivariogrammia laskettaessa. Silloin semivariogrammi on sekä etäisyyden että suunnan funktio. Estimoituihin semivariogrammin pisteisiin sovitetaan jokin ennalta valittu käyrä, joka antaa jatkuvan funktion ominaisuudet riippuvuuslaskuihin.

Esimerkki muokkaa

Eräs varhaisia krigingin sovelluskohteita oli geologinen malminarviointi. Siinä kallioon kairataan syviä reikiä, joiden kiviytimet nostetaan maanpinnalle analysoitavaksi. Tutkimuksissa kairauksia on voitu tehdä satoja ja niiden analysoitujen ytimien osat muodostavat tuhansien näytteiden tietokannan. Koska kunkin näytteen sijainti kalliossa tunnetaan, voidaan niiden arvot hyödyntää riippuvuusanalyysissä ja krigingestimoinnissa. Näytteistä lasketaankin estimointia varten semivariogrammit, joista tutkitaan riippuvuuden laatu ja vaikutusala.[7]

Variogrammien approksimaatiofunktioita muokkaa

Yleisiä ominaisuuksia muokkaa

 
Semivariogrammin huntu, kynnys ja vaikutussäde silloin, kun ne ovat satunnaiskentässä olemassa.

Huntu (engl. nugget effect) tarkoittaa variogrammin ja semivariogrammin origossa olevaa epäjatkuvuuskohtaa ja se on seurausta satunnaiskentässä olevasta satunnaisuudesta, kun eri pisteiden arvojen välillä ei ole keskinäistä riippuvuutta, tai kun näytteiden suureiden arvoissa on mittausvirhettä. Kun lasketaan lähekkäisillä satunnaismuuttujilla semivariogrammin arvoja, saadaan raja-arvoksi huntua merkitsevä luku  

 

vaikka   [6]

Kynnys (engl. sill) tarkoittaa semivariogrammin saamaa maksimiarvoa niissä tapauksissa, kun satunnaiskenttä on vahvasti- tai heikosti stationäärinen, odotusarvo on sekä äärellinen että vakio ja varianssi on äärellisenä olemassa. Kynnysarvo   saavutetaan yleensä vaikutussäteen jälkeen tai asymptoottisesti hyvin kaukana

  [6][7]

Vaikutussäde (engl. range) kertoo etäisyyden, jonka jälkeen variogrammi tai semivariogrammi saavuttaa suurimman arvonsa. Semivariogrammilla kyseinen arvo on satunnaiskentän varianssi.[6][7]

Edelliset kolme ominaisuutta on mahdollista sisällyttää mihin tahansa sovituskäyrään, jolla approksimoidaan näytteistä saatua variogrammiaineistoa. Jos merkitään vaikutussäteen   sisällä variogrammifunktiota   sen ulkopuolella kynnystä   ja origossa huntua  saadaan paloittaisella määrittelyllä semivariogrammiksi[6][7]

 

Semivariogrammilla voi edelleen olla vielä monta sisäkkäistä vaikutussädettä ja mutkikas lausekerakenne.[6]

Paljon käytettyjä semivariogrammikäyriä muokkaa

Alla on luettelo variogrammianalyysissä käytettävistä sovituskäyristä. Lausekkeissa vakio   tarkoittaa kynnyksen suuruutta,   etäisyyttä ja  vaikutussädettä. Muut suureet, kuten esimerkiksi   ja  , ovat käyrän sovittamisessa käytettäviä parametreja.

semivariogrammien käyriä
Käyrä Nimi Normi   Yhtälö  
kynnys on C, ei vaikutussädettä puhdas huntu[6][7]  
käyrät, jotka saavauttavat kynnyksen C vaikutussäteen a etäisyydellä gaussin malli[2][8][7] 1,731  
kuutiollinen[8] 1  
eksponenttifunktion malli[2] ≃ 2,996  [7]
pallomainen[3][2][8][7] 1  
sinc-käyrä[8] ≃ 20,371  
epästationääristen satunnaiskenttien käyrät lineaarinen 1  
potenssimalli[8][7] 1  
havemmin käytettävät käyrät eksponentiaalinen (yleinen)    
gamma    
ensimmäisen lajin Besselin funktio[8] 1  
Matérnin kovarianssifunktiosta johdettu käyrä[8] 1  
Cauchyn yleistys    

Lähteet muokkaa

  • Matheron, Georges: The Theory Of Regionalized Variables And Its Applications. julkaisusarjasta "Les Cahiers du Centre de Morphologie Mathématique de Fontainebleu", nro 5. Pariisi, Ranska: École Nationale Supérieure des Mines de Paris, 1971. Verkkoversio (pdf) (viitattu 24.8.2015). (englanniksi)
  • Heikkinen, Juha: Geostatistiikka (Arkistoitu – Internet Archive), luentomoniste, Helsingin Yliopisto, 2006

Viitteet muokkaa

  1. a b Pohjois-Karjalan Ammattikorkeakoulu: Kriging
  2. a b c d e f g Horttanainen, Esa-Pekka: Mat-2.108 Sovelletun matematiikan erikoistyö Spatiaalisen autokorrelaation testaaminen, s. 5−7, Systeemianalyysin opinnäytetyö, Aalto-yliopisto, 2003
  3. a b c d e f g h Koistinen, Esko: Geomatematiikan menetelmiä ja sovelluksia malmivaratutkimuksissa, Tutkimusraportti nro 52, Geologinen tutkimuslaitos, 1981
  4. a b Horttanainen, Esa-Pekka: Mat-2.108 Sovelletun matematiikan erikoistyö Spatiaalisen autokorrelaation testaaminen, Systeemianalyysin opinnäytetyö, Aalto-yliopisto, 2003
  5. a b c d e f g h i j Matheron, Georges: The Theory Of Regionalized Variables And Its Applications, 1971, s. 50–53
  6. a b c d e f g h i j k l Heikkinen, Juha: Geostatistiikka, s. 9–17
  7. a b c d e f g h i j Bohling, Geoff: Variograms, Kansas Geological Survey, 2005
  8. a b c d e f g Heikkinen, Juha: Geostatistiikka, s. 17–20