Ero sivun ”Merkistö” versioiden välillä

[arvioimaton versio][arvioimaton versio]
Poistettu sisältö Lisätty sisältö
johdantoa tiivistetty ja jäsennetty uudestaan
merkki tietoteknisenä käsitteenä
Rivi 1:
'''Merkistö''' on [[tietotekniikka|tietotekniikassa]] ja [[tietoliikenne|tietoliikenteessä]] sopimus, joka määrittelee, miten [[bitti]]yhdistelminyhdistelminä esitetytesiintyvät [[binääri]]luvut tulee tulkita johonkin [[kirjoitusjärjestelmä]]än kuuluviksi [[merkki|merkeiksi]]. MerkistössäTietokoneen [[suuraakkonen|isot]]muistissa jakukin [[pienaakkonen|pienet]]lukuarvo kirjaimetvastaa jäsentyvättiettyä erillisiksi merkeiksimerkkiä, samoinja kuinesimerkiksi [[numeroAscii]]t, erikois- jamerkistössä [[välimerkit]]lukuarvot sekä64–67 [[välilyönti]].kytkeytyvät Merkinmerkkeihin käsitteeseen ei sisälly sen leikkaus eli tyyli, joka voi vaihdella melkoisesti [[kirjasinlaji]]n mukaan.seuraavasti:
 
Tietokoneen muistissa kutakin merkkiä vastaa tietty lukuarvo. Esimerkiksi [[Ascii]]-merkistössä lukuarvot 64–67 kytkeytyvät merkkeihin seuraavasti:
 
* <code>64</code> = @
Rivi 8 ⟶ 6:
* <code>67</code> = C
 
Kaikki nykyaikaiset [[tietokone]]et käsittelevät dataa kahdeksanbittisinä [[tavu (tietotekniikka)|tavuina]], jolloinjoten yhdellä tavulla voidaan esittää 256 arvoa. Yksi merkki vie tilaa vähintään yhden tavun ja laajoissa merkistöissä ehkä enemmänkin.
 
Tietokone pystyy käsittelemään oikein vain sellaisia merkkejä, jotka sisältyvät sen tuntemaan merkistöön. Koska merkistöjä on useita erilaisia, on myös oltava selvillä, mitä merkistöä kulloinkin on käytettävä. Väärän merkistön käyttö johtaa useinhelposti informaation vääristymiseen tai katoamiseen.
 
==Merkki tietoteknisenä käsitteenä==
Tietokone pystyy käsittelemään oikein vain sellaisia merkkejä, jotka sisältyvät sen tuntemaan merkistöön. Koska merkistöjä on useita erilaisia, on myös oltava selvillä, mitä merkistöä kulloinkin on käytettävä. Väärän merkistön käyttö johtaa usein informaation vääristymiseen tai katoamiseen.
 
Erillisiksi merkeiksi merkistössä jäsentyvät [[suuraakkonen|isot]] ja [[pienaakkonen|pienet]] kirjaimet, samoin kuin [[numero]]t sekä erikois- ja [[välimerkit]]. Merkeiksi lasketaan myös itsessään näkymättömät tai kuviottomat kirjoitusmerkit, kuten [[välilyönti]], ja lisäksi merkistöön yleensä sisältyy erityisiä teknisiä ohjaus- eli kontrollimerkkejä. Merkin käsitteeseen ei sisälly kirjoitusmerkin leikkaus eli tyyli, joka voi vaihdella melkoisesti [[kirjasinlaji]]n mukaan.
== Historiaa ==
 
Eri kirjoitusjärjestelmiin kuuluvat kirjaimet katsotaan usein erillisiksi merkeiksi, vaikka ne näyttäisivät keskenään aivan samanlaisilta, kuten [[latinalainen aakkosto|latinalainen]] suuraakkonen [[A]], [[kyrillinen kirjaimisto|kyrillinen]] suuraakkonen [[А]] ja [[kreikkalainen kirjaimisto|kreikkalainen]] suuraakkonen [[Α]] (alfa, pienaakkosena α). Yhden kirjoitusjärjestelmän piirissä käytettävät merkitkään eivät aina ole ulkonaisesti erotettavissa toisistaan, sillä [[Unicode]]-merkistössä on esimerkiksi useita viivamerkkejä hieman erilaisiin tarkoituksiin: tavallinen [[yhdysviiva]] (U+002D eli niin sanottu yhdysmerkki-miinus) sopii tarvittaessa sekä yhdysviivaksi että etenkin tietotekniseksi [[miinus]]merkiksi, mutta vaihtoehtoisesti voidaan käyttää erityistä yhdysmerkkiä (U+2010), joka on tarkoitettu käytettäväksi pelkästään yhdysviivana, [[sitova yhdysmerkki|sitovaa yhdysmerkkiä]] (U+2011), jonka jälkeen rivinvaihto ei ole sallittu, sekä miinusta (U+2212), joka on tarkoitettu erityisesti [[typografia|typografiseksi]] miinusmerkiksi. Näistä typografinen miinusmerkki on muita selvästi pitempi, mutta muut ovat (tai ainakin niiden pitäisi olla) keskenään aivan samannäköisiä.
Ensimmäisinä merkistöinä voidaan pitää [[kaukokirjoitin]]laitteissa jo [[1800-luku|1800-luvulla]] käytettyjä ”5-[[bitti]]siä” [[Baudot-koodi]]stoja.
 
== Historia ==
=== Asciista 8-bittisiin merkistöihin ===
 
Ensimmäisinä merkistöinä voidaan pitää [[1960-luku|1960kaukokirjoitin]]laitteissa jo 1800-luvulla käytettyjä ”5-bittisiä” [[Baudot-koodi]]stoja. kehitetty1960-luvulla kehitetyn 7-bittinenbittisen [[Ascii]]n onvoidaan Baudot-merkistöjenkatsoa melkopolveutuvan suora perillinenBaudot-merkistöistä. Yhteistä vanhoille merkistöille on yleensä se, että merkit on valittu vain tiettyä kieltä varten: esimerkiksi [[Yhdysvallat|Yhdysvalloissa]] kehitetty Ascii soveltuu melko hyvin [[amerikanenglanti|amerikanenglannin]] kirjoittamiseen, mutta muun muassa [[suomen kieli|suomen]], [[ruotsin kieli|ruotsin]] ja [[saksan kieli|saksan]] kielissä tarvittavia [[Å]]-, [[Ä]]-, [[Ö]]-, [[Ü]]- ja [[ß]]-kirjaimia ei siinä ole. Tämän vuoksi merkistöistä kehitettiin useita rinnakkaismuotoja eri maiden tarpeita varten. Suomessa käytettiin vielä [[1980-luku|1980-luvulla]] yleisesti Asciin SF7-muunnosta, jossa eräät erikoismerkit oli korvattu suomessa ja ruotsissa tarvittavilla kirjaimilla.
 
Koska Ascii on 7-bittinen ja tietokoneet käyttävät yleisesti 8-bittistä tavua, monet tietokonevalmistajat tarjosivat käyttöön laajempia merkistöjä, joissa ylimääräiseksi jäänyt bitti otettiin käyttöön. Tällä tavoin Asciin mahdollistamien merkkien määrä kaksinkertaistui 128:sta 256:een. Näissä merkistöissä 128 ensimmäistä merkkiä vastasivat yleensä Asciita, mutta loput merkkipaikat voitiin omistaa esimerkiksi muiden kielten tarvitsemille kirjaimille. Nämä laajennetut merkistöt olivat kuitenkin eri tietokonevalmistajilla hyvin erilaisia.
 
Yhtenäisten 8-bittisten merkistöjen kehittämiseksi vuonna [[1985]] kehitettiin ISO 8859 -standardi, joka määritteli aluksi neljä laajennettua eurooppalaista merkistöä. Koska edes kaikkia eurooppalaisten kielten vaatimia kirjaimia ei voida mahduttaa 256 merkkiin, kielet oli jaoteltava alueittain ryhmiin, joista kullekin luotiin oma merkistö.
 
Merkistöjen välisistä eroista johtuu, että jos luetaan tekstitiedostoa, joka on tallennettu toisenlaisella merkistöllä, osa merkeistä korvautuu toisilla. Tällöin tekstiä voi olla vaikea tai mahdoton ymmärtää. Jos tiedoston alkuperäinen merkistö tunnetaan, tiedosto voidaan kääntää toisen merkistön mukaiseksi, mutta jos kohdemerkistössä ei ole käytössä samoja merkkejä kuin alkuperäisessä tekstissä, osa merkeistä voi hävitä. Kaikki ISO 8859 -merkistöt ovat kuitenkin yhteensopivia Asciin kanssa, joten numerot 0–9, kirjaimet A–Z ja a–z sekä tavallisimmat väli- ja erikoismerkit pysyvät aina samoina.