Big data

Big data tai massadata on erittäin suurten, järjestelemättömien, jatkuvasti lisääntyvien tietomassojen keräämistä, säilyttämistä, jakamista, etsimistä, analysointia sekä esittämistä tilastotiedettä ja tietotekniikkaa hyödyntäen.^[1]^[2]^[3]

Big data on siis yhteisnimitys valtaisille datamäärille, joiden yhteydessä ei voida soveltaa perinteisiä datanhallinnointitapoja^[4]. Big data soveltuukin käsitteenä hyvin moniin erityyppisiin tilanteisiin, eikä vielä ole syntynyt konsensusta siitä mitä Big data tarkalleen sisältää ^[5]. Vaikkei olekaan yhtä vakiintunutta määritelmää, on olemassa toistuvia tunnusomaisia piirteitä, joilla Big dataa kuvataan. Näitä ovat muun muassa seuraavat:

se ei ole käsiteltävissä yleisesti käytössä olevilla laitteistoilla tai ohjelmistoilla siedettävissä olevassa ajassa käyttäjän kannalta ^[6]
mahdollisesti käytössä monessa paikassa yhtä aikaa ^[6]
data tulee eri lähteistä, eri muodoissa ja se kasaantuu ja/tai muuttuu nopeasti ^[5]
usein jonkin laitteen automaattisesti tuottamaa ^[5]
kerätty mahdollisesti ilman suunnitelmaa siitä, mihin sitä tarkkaan ottaen tullaan käyttämään ^[5]
datalla on usein vain löyhästi määritelty rakenne, tai ei rakennetta lainkaan, jolloin sitä ei voida sellaisenaan analysoida ^[5]
lisäksi myös: tiedon varastointi fyysisesti (tilat, tiedon siirto, laitteet (palvelimet) ja siihen liittyvät asiat, kuten huolto tai jäähdytys)

Big datalle on myös ominaista määritelmän tarkan sisällön muuttuminen ajan kuluessa. Tämä tapahtuu teknologian ja työvälineiden kehittyessä, jolloin se data, jonka käsittely vielä aiemmin tuotti vaikeuksia onkin tänään jo siinä määrin helposti hyödynnettävissä, ettei sitä enää voida Big dataksi kutsua.

Big datan ominaisuuksia

Big dataa voidaan kuvata seuraavilla ominaisuuksilla (5 V:tä):^[7]^[8]

Volume (Määrä) = Luodun datan määrä ja varastoidun datan määrä. Datan määrä määrittelee arvon ja potentiaaliset oivallukset voidaanko sitä pitää Big datana vai ei^[7]^[8]
Variety (Valikoima) = Tietojen tyyppi ja luonne. Saatu data koostuu useasta eri lähteestä ja on joko jäsentymätöntä tai lähes jäsenneltyä^[7]^[8]
Velocity (Nopeus) = Dataa tulee pystyä tuottamaan nopeasti ja sitä tulee myös pystyä käsittelemään nopeasti^[7]^[8]
Value (Arvo) = Datan tulee tuottaa arvoa ja dataa tulee pystyä hyödyntämään^[7]^[8]
Veracity (Todenmukaisuus) = Datan analysointi voi johtaa vääriin johtopäätöksiin tai analysoituihin tuloksiin liittyy epävarmuutta^[7]^[8]

Big datan kertyminen

Big dataksi kutsuttavia tietovarantoja syntyy hyvin monilla eri aloilla. Sen lähteitä ovat muun muassa seuraavat:^[5]

Aika- ja paikkatiedot, esimerkiksi navigointipalvelu, joka tallettaa missä asiakas on milläkin hetkellä
Internetsivustojen lokitiedot
Tekstit, kuten asiakaspalaute tai arvostelut
RFID-merkit
Älykkäät sähköverkot
Laitteiden toimintaa tarkkailevat mittarit
Sosiaalisen median sisältö, sosiaalinen massadata
Telemetria autoissa, tai videopelin pelaajan toimintaa seurattaessa

Big datan käyttäminen

Big datan käyttöönotto saattaa olla haastavaa johtuen suuruuden lisäksi myös rakenteesta ja hyödyllisen tiedon erottamisen vaikeudesta.

Rakenne

Erityyppiset datan rakenteet voidaan jaotella karkeasti seuraaviin kolmeen eri luokkaan.^[5]

Rakenne on selkeä ja ennalta tarkkaan määritelty. Perinteisesti data on tällaista, missä on ennalta määritetty mitä tietoja kerätään ja miten ne merkitään ja tämä sama säännöstö pätee koko dataan.
Löyhästi määritelty rakenne. Esimerkiksi internetsivuston keräämät lokitiedot ovat tällaista. Data sisältää tietoa, joka on merkitty ennaltamäärätyllä tavalla, mutta minkä tahansa yksittäisen tiedon etsiminen saattaa vaatia mittavaa etsimistä. Analysointia varten dataa joudutaan luultavasti merkittävästi muokkaamaan ja sieltä poimimaan ne osat, jotka ovat varsinaisesti hyödyllisiä annetun kysymyksen näkökulmasta.
Ei lainkaan rakennetta. Esimerkiksi asiakaspalautteet tai sosiaalisesta mediasta poimitut ihmisten lähettämät julkiset päivitykset. Tällaisessa tilanteessa ei voida lainkaan tehdä oletuksia siitä, mitä data tulee sisältämään tai millaisessa muodossa asioita tullaan ilmaisemaan.

Turha data

Nykyisin tiedontallennuksen ollessa hyvin edullista dataa saatetaan kerätä niin paljon kuin voidaan, esimerkiksi asiakkaan käyttäytymisestä organisaation internet-sivustolla. Tällöin tallennetuksi päätyy myös paljon sellaista dataa, joka ei ole hyödyllistä. Ryhdyttäessä analysoimaan tällaista dataa ensimmäiseksi täytyy pyrkiä löytämään datan joukosta se osa, joka on merkityksellistä. Mikä osa datasta on kunkin hetkisen tilanteen kannalta oleellista saattaa vaihtua hyvinkin nopeasti. Tämä johtuu siitä että, Big datan yhteydessä on tyypillistä päivittää tehtyä analyysia hyvin usein, jotta käytettävissä olisi viimeisin mahdollisin tieto.^[5]

Käyttöönotto

Kun edellisistä kohdista ollaan selvillä voidaan siirtyä käyttämään yleistä kolmiportaista ETL-mallia Big datan käyttöönotolle. Ensimmäiseksi tulee extraction, suomeksi poiminta, eli data saadaan jostain. Tämän jälkeen tulee transformation, suomeksi muunnos, jolloin datalle tehdään tarvittavat muutokset sen käyttöönottamiseksi valitussa analysointiympäristössä. Viimeisenä vaiheena on load, suomeksi lataaminen, eli otetaan data käyttöön valitussa analysointiympäristössä.^[5]

Big datan virtualisointi

Data virtualisointi on tapa kerätä tietoa useista lähteistä samassa paikassa. Kokoaminen on virtuaalista: toisin kuin muut menetelmät, suurin osa tiedoista jää alkuperäisasemaansa ja on peräisin vaadittavista raaka-aineista.^[9]

Kritiikki

Yksityisyydensuoja

Kerättäessä suuria määriä tietoa yksittäisten ihmisten toiminnasta, kuten vaikkapa sosiaalisen median käytöstä, on noussut huoli siitä kuka ja miten näitä tietoja voidaan käyttää. Euroopan unionin yleinen tietosuoja-asetus (GDPR) antaa tietyssä tilanteissa rekisteröidylle oikeuden saada itseään koskevat tiedot pois palveluntarjoajan rekisteristä, tämä kulkee nykyisin nimellä oikeus tulla unohdetuksi. (The right to Erasure). Maailmanlaajuisesti samantapaisia aloitteita on lukuisia muitakin.^[10]

Lähteet

↑ http://www.bigdata.fi/big-data-maaritelma (Arkistoitu – Internet Archive)
↑ http://www.talouselama.fi/kumppaniblogit/tieto/big+data+muuttaa+maailmaa/a2191461 (Arkistoitu – Internet Archive)
↑ Hilbert, Martin (2013)http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2205145 "Big Data for Development: From Information- to Knowledge Societies" Rochester, NY: Social Science Research Network
↑ Srinivasa, Srinath (2012) http://link.springer.com.ezproxy.jyu.fi/book/10.1007%2F978-3-642-35542-4 "Big Data Analytics : First International Conference, BDA 2012, New Delhi, India, December 24-26, 2012. Proceedings / edited by Srinath Srinivasa, Vasudha Bhatnagar" Springer, Berlin, Heidelberg.
↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ Franks, Bill (2012) http://site.ebrary.com.ezproxy.jyu.fi/lib/jyvaskyla/docDetail.action?docID=10546553^{[vanhentunut linkki]} "Taming the Big Data Tidal Wave : Finding Opportunities in Huge Data Streams with Advanced Analytics" Wiley, Hoboken, NJ, USA
↑ ^a ^b Adrian, Merv (2011)http://www.teradatamagazine.com/v11n01/Features/Big-Data/ "Big Data" Teradata Magazine 1/2011
↑ ^a ^b ^c ^d ^e ^f Kacfah Emani, C., Cullot, N. and Nicolle, C.: Understandable Big Data: A survey. Computer Science Review., 17, pp. 70–81. doi: 10.1016, 2015 toukokuu. Elsevier Inc..
↑ ^a ^b ^c ^d ^e ^f Authors, F.: Enhancing knowledge management: Big Data analytics and social media content. Strategic Direction, toukokuu 2017.
↑ Data Virtualization – dataWerks www.datawerks.com. Arkistoitu 10.4.2018. Viitattu 3.5.2018. (englanniksi)
↑ Lee, Newton (2013)"Facebook Nation: Total Information Awareness" Springer, New York

Aiheesta muualla

Kuvia tai muita tiedostoja aiheesta Big data Wikimedia Commonsissa

[1] ttp://www.bigdata.fi/big-data-maaritelma (Arkistoitu – Internet Archive)

[2] ttp://www.talouselama.fi/kumppaniblogit/tieto/big+data+muuttaa+maailmaa/a2191461 (Arkistoitu – Internet Archive)

[3] Hilbert, Martin (2013)http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2205145 "Big Data for Development: From Information- to Knowledge Societies" Rochester, NY: Social Science Research Network

[4] Srinivasa, Srinath (2012) http://link.springer.com.ezproxy.jyu.fi/book/10.1007%2F978-3-642-35542-4 "Big Data Analytics : First International Conference, BDA 2012, New Delhi, India, December 24-26, 2012. Proceedings / edited by Srinath Srinivasa, Vasudha Bhatnagar" Springer, Berlin, Heidelberg.

[:0-5] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ Franks, Bill (2012) http://site.ebrary.com.ezproxy.jyu.fi/lib/jyvaskyla/docDetail.action?docID=10546553^{[vanhentunut linkki]} "Taming the Big Data Tidal Wave : Finding Opportunities in Huge Data Streams with Advanced Analytics" Wiley, Hoboken, NJ, USA

[:1-6] Adrian, Merv (2011)http://www.teradatamagazine.com/v11n01/Features/Big-Data/ "Big Data" Teradata Magazine 1/2011

[:2-7] ↑ ^a ^b ^c ^d ^e ^f Kacfah Emani, C., Cullot, N. and Nicolle, C.: Understandable Big Data: A survey. Computer Science Review., 17, pp. 70–81. doi: 10.1016, 2015 toukokuu. Elsevier Inc..

[:3-8] ↑ ^a ^b ^c ^d ^e ^f Authors, F.: Enhancing knowledge management: Big Data analytics and social media content. Strategic Direction, toukokuu 2017.

[9] Data Virtualization – dataWerks www.datawerks.com. Arkistoitu 10.4.2018. Viitattu 3.5.2018. (englanniksi)

[10] Lee, Newton (2013)"Facebook Nation: Total Information Awareness" Springer, New York

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]