Tietokanta

järjestetty kokoelma toisiinsa liittyviä tietoja

Tietokanta on järjestetty tietokoneen tallentama tietojen ja informaation kooste.[1] Tietokannat ovat määrättyä tarkoitusta varten koottuja tiedostokokoelmia, joista hakumenetelmillä saadaan yksittäinen tieto tai tietoyhdistelmiä ja joita voidaan korjailla tai täydentää (päivitys). Laajimmin käytetyt tietokantaohjelmistot (nk. relaatiotietokannat) perustuvat ns. relaatiomalliin.[2][3][4] Relaatiomallin vaihtoehtona tietokannat voivat perustua muun muassa oliomalliin tai graafimalliin.

Tietokantojen historiaaMuokkaa

Vuonna 1959 perustettu CODASYL-komitea määritteli tietokannan hallintajärjestelmiä, joiden ensimmäinen määrittely julkaistiin vuonna 1969.[5]

Modernien tietokantojen edeltäjiä kehitettiin 1960-luvulla. Hierarkkinen malli toteutettiin ensimmäisenä, sen jälkeen verkkomalli ja sen jälkeen relaatiomalli.

Alan pioneeri oli Charles Bachman. Bachmanin artikkeli The Programmer as Navigator julkaistiin vuonna 1973 Communications of the ACM -lehdessä.[6] Artikkeli johti niin sanotun navigaatiomallin kehittämiseen. Navigaatiomalli liitetään usein hierarkkisiin ja verkkomallin tietokantoihin.

Tietokantojen relaatiomallin ja käsittelyteorian kehitti Edgar F. Codd, jonka artikkeli A Relational Model of Data for Large Shared Data Banks julkaistiin vuonna 1970 Communications of the ACM -lehdessä.[7][8] Codd työskenteli IBM:n tutkimuslaboratoriossa, ja hän johti ensimmäisten relaatiotietokantojen testiversioiden kehitystyötä. Vuosina 1973–1976 IBM-laboratoriossa kehitettiin relaatiotietokannan prototyyppiä nimeltä System R. IBM:n kaupallinen tietokantatuote DB2 julkaistiin 1982.

Olio-ohjelmoinnin yleistyttyä myös tietokantoja on kehitetty vastaamaan oliomallin asettamiin tarpeisiin. On kehitetty puhtaita oliotietokantoja, minkä lisäksi perinteisiin relaatiokantoihin on lisätty olio-ohjelmointia tukevia ominaisuuksia. Jälkimmäisistä käytetään nimeä olio-relaatiotietokannat.

NoSQL-tietokannaksi kutsuttiin aluksi Carlo Strozzin vuonna 1998 esittämää järjestelmää, jossa ei käytetty SQL-kyselykieltä.[9] Termi yleistyi vuonna 2009 Johan Oskarssonin järjestämässä tapaamisessa, jossa keskusteltiin ei-relaatiomallin mukaisista ohjelmistoista kuten Cassandra ja Voldemort.[9] NoSQL-tietokantoja ovat avain-arvotietokannat, sarakkeiset tietokannat, dokumentti-orientoituneet tietokannat ja graafitietokannat.[9] XML-tietokanta on dokumenttiorientoituneen tietokannan tyyppi.

NewSQL on tietokantaluokka, joka pyrkii yhdistämään ACID-ominaisuudet NoSQL-tietokantojen skaalautuvuuteen.[10]

Hajautettu tietokanta on tietokanta, joka ei ole kokonaisuudessaan tallennettu yhdessä paikassa vaan tietokoneverkon kautta toisiinsa liitetyillä tietokoneilla.[11]

Hierarkkinen tietokantaMuokkaa

 
Hierarkkinen malli

Varhaisin tietokantamalli on hierarkkinen malli.[12] Hierarkkinen malli johti verkkomallin kehitykseen.[12]

Hierarkkisessa tietokannassa tieto järjestetään ylösalaisin käännettyyn puurakenteeseen.[12][13] Rakenteessa tiedoilla on isäntä–lapsi-suhde kuten hierarkkisessa tiedostojärjestelmässä: isännällä voi olla useita lapsia mutta lapsella voi olla vain yksi isäntä.[12] Tämä eroaa relaatiotietokannasta, jossa rakenne voidaan vapaasti määrittää.[13]

Hierarkkinen malli oli parannusta toisiinsa liittymättömien tiedostojen käsittelystä. Hierarkkinen malli esittää hyvin yksi–moneen-suhteita, mutta sillä on ongelmia monta–moneen-suhteiden esittämisessä.[12] Uusien riippuvaisuussuhteiden lisääminen vaatii laajaa rakenteen muokkaamista, mikä johtaa myös sovelluksien muuttamiseen.[12]

IBM:n Information Management System (IMS) perustuu hierarkkiseen malliin: järjestelmää on edelleen käytetty vuonna 2013 IBM System Z -alustalla.[14] IMS perustuu Yhdysvaltain avaruusohjelman materiaalihankintojen hallintaan kehitettyyn järjestelmään.[15]

Hierarkkiseen malliin perustuviin järjestelmiin kuuluvat DNS-nimipalvelu ja LDAP-hakemistopalvelut.

Verkkomallin tietokantaMuokkaa

 
Verkkomalli

Verkkomallin tietokanta suunniteltiin korjaamaan hierarkkisen mallin ongelmia, etenkin sen joustamattomuutta.[16] Mallissa on ongelmia kuten vaikeampi toteutus ja ylläpito.[16] Verkkomalli johti relaatiomallin kehittämiseen. Relaatiomallia pidettiin aluksi epäkäytännöllisenä.[17]

Verkkomalli esittää tiedot tietuiden puurakenteena.[18] Riippuvuudet tietuiden välillä esitetään joukkoina, joilla on isäntä (omistaja verkkomallissa) ja lapsia (jäseniä verkkomallissa).[16][18] Tietueiden liitokset esitetään osoittimina eikä toistettuina sarakkeina kuten relaatiomallissa.[18]

Verkkomalli lisäsi mahdollisuuden useammalle omistajalle ja sitä myötä monta–moneen-suhteiden esityksen.[16]

Charles Bachmanin General Electricille kehittämä Integrated Data Store (IDS) perustui verkkomalliin ja vaikutti myös CODASYLin toimintaan.[19]

RelaatiotietokannatMuokkaa

Pääartikkeli: Relaatiotietokanta
 
Relaatiomalli

Relaatiotietokannat perustuvat predikaattilogiikkaan pohjautuvaan relaatiomalliin, jonka käsitteitä käyttäen tietokannan peruskäsitteet, kuten taulut, määritellään. Relaatiotietokannoissa (engl. relation, suom. suhde) taulujen välille luodaan yhteyksiä. Taulujen tiedot yhdistetään toisiinsa toisen taulun avaimella. Yleisimmin ID:llä. Toisessa taulussa yhteyden luovaa saraketta kutsutaan viiteavaimeksi tai vierasavaimeksi (engl. Foreign Key).

Taulujen välisiä suhteita kuvataan usein Äiti-lapsi -termillä. Termin mukaisesti äidillä voi olla useita lapsia, mutta lapsilla ei useita äitejä (suhde 1:n). Esimerkiksi viestillä voi olla vain yksi kirjoittaja (käyttäjä), mutta käyttäjällä useita kirjoituksia. Tällaisessa tapauksessa kirjoittaja/käyttäjä on tietokannallisesti viestin äiti ja kirjoitukset ovat kirjoittajan lapsia.

Yhdistettyjen taulujen tietojen käsittelyä hallitaan viite-eheyksillä. Viite-eheydet määrittävät mitä yhdistetyille tiedoille tapahtuu jos taulujen tiedot vaihtuvat tai ne poistetaan. Viite-eheyksillä voidaan siis määrittää esimerkiksi poistuvatko lapsitiedot jos äititieto poistetaan (Poistuvatko viestit jos niiden kirjoittaja poistetaan tietokannasta.).

Esimerkki yksinkertaisesta taulukkorakenteisesta tietokannasta.

ID Nimi Sukunimi Ikä
1 Pekka Pekkanen 45
2 Tieto Kantanen 23
3 Mauri Makkonen 68

OliotietokannatMuokkaa

 
Esimerkki oliomallista.

Oliomalliin perustuvat tietokannat ilmeistyivät ensi kertaa 1980-luvulla CAD-sovelluksien tarpeisiin.[20] Toisin kuin relaatiomallissa, oliomalli ei linkitä rivejä ja sarakkeita. Oliomallin mukaisessa tietokannassa ei myöskään käytetä kiinteää skeemaa. Monimutkaisen tiedon hakeminen voi olla myös nopeampaa seuraamalla suoraan osoittimia.lähde?

Oliotietokantojen tuki kyselykielille kuten SQL on vähäisempää ja käyttö painottuu enemmän olio-ohjelmointikieliin.[20]

Tietokannan rakentaminenMuokkaa

Tietokannan rakentaminen perustuu siihen tallennettavan tiedon mallintamiseen. Tiedon mallintaminen perustuu sen ja sen kuvaaman todellisuuden analyysiin, jonka tuloksena saadaan joukko entiteettejä, niiden välisiä yhteyksiä ja niiden ominaisuuksia. Nämä esitetään yleensä jonkin kuvauskielen tai tekniikan avulla. Yksi yleinen kuvauskieli on UML. Seuraavassa vaiheessa malli kuvataan jonkin reaalisen tietokantatekniikan edellyttämässä muodossa. Yksi yleinen tietokantatekniikka on relaatiotietokanta, joka perustuu relaatiotietomalliin.

Tietomalli on siis malli tiedosta, ei todellisuudesta, jota se mallintaa vain epäsuorasti. BIM (Building Information Modelling, Rakennuksen tietomalli) on vastaavasti rakentamisen käytännön toteutus tietomallista, joka perustuu aina tietokantaan.

Tietokantojen rakentamisen lisäksi tietokoneohjelmien rakentamisen yhteydessä tehdään tietomalli niistä tiedoista, joita ohjelmalla käsitellään. Tietomallia voidaan tarvita myös esimerkiksi kommunikaatioprotokollien rakentamisessa. Tietokannat voivat nykyisin tallentaa myös binääridataa. Tällöin tietomallia suunniteltaessa arvioidaan, onko tietueisiin liittyviä dataobjekteja kuten kuvia järkevintä käsitellä erillisinä tiedostojärjestelmään tallennettuina tiedostoina vai tietokantaan tallennettuina binääritietueina (tietotyypit BLOB ja CLOB).

Jos ollaan rakentamassa relaatiotietokantaa, jota hallitaan SQL-kielen avulla, niin viime vaiheessa tietomallissa kuvatut entiteetit luodaan tietokantaan tauluina käyttäen SQL-kielen määrittelylauseita (käytännössä CREATE-lause). Yksinkertaisimmissa tietomalleissa entiteetin sisältämät tietueet ja tietotyypit voivat sellaisinaan vastata tietokannan taulurakennetta. Tietokantajärjestelmät mahdollistavat myös monimutkaisemman toimintalogiikan toteuttamisen jopa niin, että tietokantamoottori voi SQL-kielisten kyselyiden lisäksi ajaa yleisemmillä ohjelmointikielillä toteutettuja tallennettuja proseduureja. Tämä lähestymistapa on hyödyllinen erityisesti tilanteissa, joissa asiakaspäässä on käytössä rajalliset resurssit SQL-kyselyn palauttaman datan tulkitsemiseen jolloin tulkintaa ja muuta käyttötapaukseen liittyvää logiikkaa voidaan toteuttaa palvelinpäässä.

Tietokannan hallintajärjestelmäMuokkaa

Tietokannan hallintajärjestelmä on ohjelmisto (yksi tai useampia ohjelmia), jonka tehtävänä on hakea, tallentaa ja järjestää tietokoneella olevia tietoja.[21]

Hallintajärjestelmä on toteutettu varusohjelmistonalähde?, jonka tehtävänä on tukea varsinaista tietokantamoottoria (engl. database engine) mm. optimoimalla kyselyjä käyttäen hyväksi tallennettua hakutilastoa (engl. statistics) ja indeksejä. Tietokannan hallintajärjestelmät sisältävät myös ylläpitoa helpottavia apuohjelmia joiden avulla tietokantamoottorin säilyttämä tieto voidaan varmuuskopioida ja palauttaa sekä viedä ja tuoda muihin järjestelmiin. Varusohjelmat mahdollistavat tietokantojen klusteroinnin sekä toisintamisen kun haetaan korkeampaa käytettävyyttä ja saatavuutta. Hallintajärjestelmät sisältävät nykyisin myös rakenteisten dokumenttimuotojen tuen sekä teksti-indeksoinnin laajojen tietomäärien käsittelemiseksi. Hallintajärjestelmä helpottaa ylläpitäjän työtä myös tarjoamalla yhden käyttöliittymän jonka kautta tietokantamoottorien tilaa, ominaisuuksia ja parametrejä voidaan helposti hallita. Käytännössä kuitenkin tietokantojen ylläpitäjät yhä työskentelevät mieluummin komentorivipohjaisen konsolin kautta.

Relaatiotietokantojen hallintajärjestelmistä käytetään lyhennettä RDBMS ja oliotietokantojen hallintajärjestelmistä lyhennettä ODBMS tai OODBMS.

Katso myös: Tietokantasovellus

Tietokannat käytännössäMuokkaa

Tietokantoja käytetään monissa sovelluksissa liki jokaisella sovellusalueella. Tietokantaa suositellaan suurien monen käyttäjän järjestelmien tiedon tallennusmekanismiksi silloin kun tarvitaan koordinaatiota usean käyttäjän välillä. Jopa yksittäiselle käyttäjälle tietokanta voi olla sopiva ratkaisu, ja monet sähköpostiohjelmat ja kalenterisovellukset perustuvat standardinmukaiseen tietokantateknologiaan.

Transaktiot ja samanaikaisuusMuokkaa

Pääartikkeli: ACID

Lisänä useimmat käytännön tietokannat pyrkivät toteuttamaan transaktiomallin, jolla on halutut tiedon oikeellisuuden säilytysominaisuudet. Ihannetapauksessa tietokantaohjelmisto noudattaa ACID-sääntöjä:

  • Atomisuus (Atomicity) - kaikki tai ei mitään. Jokainen operaatio pitää suorittaa tai sitten mitään niistä ei suoriteta. (Transaktiot joita ei pystytä viemään loppuun täytyy peruuttaa kokonaisuudessaan.)
  • Johdonmukaisuus (Consistency) - jokaisen transaktion jäljiltä tietokannan tulee olla johdonmukaisessa tilassa.
  • Eristys (Isolation) - transaktiot eivät saa vaikuttaa toisiinsa ja keskeneräinen suoritus ei saa näkyä muille transaktioille.
  • Pysyvyys (kestävyys, Durability) - onnistuneiden transaktioiden pitää säilyä mahdollisen kaatumisenkin jälkeen.

Käytännön toteutuksissa useimmat tietokantajärjestelmät joustavat joidenkin näiden sääntöjen noudattamisessa paremman suorituskyvyn saavuttaakseen.

Samanaikaisuuden hallinta on menetelmä, jolla varmistetaan että transaktiot ajetaan turvallisella tavalla ACID-sääntöjä noudattaen. Tietokantajärjestelmän pitää pystyä varmistamaan että vain sarjallistettavat, palautettavat operaatiot ovat sallittuja ja että mitään toimintoja toteutetuista transaktioista ei menetetä silloin kun palautetaan kanta tilaan ennen peruutettua transaktiota.

Transaktioille tyypillisesti toteutetaan transaktioloki (transaktiohistoria), jolla voidaan palauttaa tietokanta aiempaan tilaan (engl. rollback) ja myös seuraavaan tilaan (engl. rollforward), esimerkiksi palautuksen jälkeen. Tästä syystä lokissa on toteutuksesta riippuen oltava varsinainen muutos, sekä muutosta edeltävä tieto jotta palautus on mahdollista tehdä.

KyselykieletMuokkaa

Pääartikkeli: Kyselykieli

Tietokantojen hallintajärjestelmät tukevat erilaisia kyselykieliä, joita ovat:

Tietokannan oikeudellinen suojaMuokkaa

Tekijänoikeuslaissa erilaisille tietokannoille on myönnetty määräaikainen oikeussuoja. Lain tietokanta-käsite on toinen kuin tekniikan: lain suoja tietokannalle kattaa lähinnä tietokannan sisältämän informaation eikä niinkään esimerkiksi taulurakennetta. Suojatun tietokannan ei tarvitse olla edes sähköinen vaan se voi olla esimerkiksi kortisto. Oikeudellisen suojan edellytyksenä on merkittävä panostus tietokannan luomiseen tai järjestämiseen.

Tietokantaan liittyviä käsitteitäMuokkaa

LähteetMuokkaa

  1. Database Encyclopaedia Britannica. Viitattu 20.10.2019. (englanniksi)
  2. Rantala Risto, päätoimittaja, Itkonen Mikko, Suramo Ari ; grafiikka: Vakkila, Juha.: Otavan tietosanakirja. Artikkeli: tietokanta.. Helsinki: Otava, 1997. ISBN 951-1-15139-8.
  3. CD-Facta 2005: suomenkielinen tietosanakirja. Artikkeli: tietokanta. Helsinki: WSOY, 2004. ISBN 951-0-29148-X.
  4. tietokanta Kielitoimiston sanakirja. Kotimaisten kielten keskus.
  5. The CODASYL Network Model remote-dba.net. Viitattu 20.10.2019. (englanniksi)
  6. Charles W. Bachman: The programmer as navigator dl.acm.org. 1973. doi:10.1145/355611.362534. (englanniksi)
  7. E F Codd: A Relational Model of Data for Large Shared Data Banks (PDF) kesäkuu 1970. Communications of the ACM. Viitattu 22.7.2019. (englanniksi)
  8. Edgar F. ("Ted") Codd ACM. Viitattu 22.7.2019. (englanniksi)
  9. a b c Mark Drake: A Comparison of NoSQL Database Management Systems and Models digitalocean.com. Arkistoitu . Viitattu 20.10.2019. (englanniksi)
  10. NewSQL….the new era of Relational Databases? agilelab.it. Viitattu 20.10.2019. (englanniksi)
  11. https://www.its.bldrdoc.gov/fs-1037/dir-012/_1750.htm (Arkistoitu – Internet Archive)
  12. a b c d e f Understanding the Hierarchical Database Model mariadb.com. Viitattu 20.10.2019. (englanniksi)
  13. a b Hierarchical Model (PDF) db-book.com. Viitattu 30.6.2019. (englanniksi)
  14. IBM Information Management System (IMS) 13 Transaction and Database Servers delivers high performance and low total cost of ownership 1.10.2013. IBM. Viitattu 21.10.2019. (englanniksi)
  15. IBM Information Management System: From Apollo to Enterprise informit.com. 21.12.2011. Viitattu 12.3.2020. (englanniksi)
  16. a b c d Understanding the Network Database Model mariadb.com. Viitattu 20.10.2019. (englanniksi)
  17. Understanding the Relational Database Model mariadb.com. Viitattu 20.10.2019. (englanniksi)
  18. a b c Network Database Model Vs. Relational Model raima.com. Viitattu 20.10.2019. (englanniksi)
  19. Charles William Bachman amturing.acm.org. (englanniksi)
  20. a b Thelin, Roy: RDBMS versus ODBMS nomad-ret.net. Viitattu 21.8.2017.
  21. Keith D. Foote: A Brief History of Database Management dataversity.net. 23.3.2017. Viitattu 20.10.2019. (englanniksi)

Aiheesta muuallaMuokkaa