Ero sivun ”Merkistö” versioiden välillä

[arvioimaton versio][katsottu versio]
Poistettu sisältö Lisätty sisältö
Ei muokkausyhteenvetoa
Ei muokkausyhteenvetoa
Rivi 19:
== Historia ==
 
Ensimmäisinä merkistöinä voidaan pitää [[kaukokirjoitin]]laitteissa jo 1800-luvulla käytettyjä ”5-bittisiä” [[Baudot-koodi]]stoja, joista myös 1960-luvulla kehitetyn 7-bittisen [[ASCII]]-merkistön voidaan katsoa polveutuvan. Yhteistä vanhoille merkistöille on yleensä se, että merkit on valittu vain tiettyä kieltä varten: esimerkiksi [[Yhdysvallat|Yhdysvalloissa]] kehitetty ASCII soveltuu melko hyvin [[amerikanenglanti|amerikanenglannin]] kirjoittamiseen, mutta muun muassa [[suomen kieli|suomen]], [[ruotsin kieli|ruotsin]] ja [[saksan kieli|saksan]] kielissä tarvittavia kirjaimia [[Å|Å/å]], [[Ä|Ä/ä]], [[Ö|Ö/ö]], [[Ü|Ü/ü]] ja [[ß]] ei siinä ole. Tämän vuoksi merkistöistä kehitettiin useita rinnakkaismuotoja eri maiden tarpeita varten. Suomessa käytettiin vielä 1980-luvulla yleisesti AsciinASCIIn SF7-muunnosta, jossa eräät erikoismerkit oli korvattu suomessa ja ruotsissa tarvittavilla kirjaimilla.
 
Koska ASCII on 7-bittinen ja tietokoneet käyttävät yleisesti 8-bittistä tavua, monet tietokonevalmistajat tarjosivat käyttöön laajempia merkistöjä, joissa ylimääräiseksi jäänyt bitti otettiin käyttöön. Tällä tavoin ASCII:nASCIIn mahdollistamien merkkien määrä kaksinkertaistui 128:sta 256:een. Näissä merkistöissä 128 ensimmäistä merkkiä vastasivat yleensä ASCII:taASCIIta, mutta loput merkkipaikat voitiin omistaa esimerkiksi muiden kielten tarvitsemille kirjaimille. Eri tietokonevelmistajien laajennetut merkistöt olivat kuitenkin keskenään hyvin erilaisia.
 
Yhtenäisten 8-bittisten merkistöjen kehittämiseksi vuonna 1985 kehitettiin ISO 8859 -standardi, joka määritteli aluksi neljä laajennettua eurooppalaista merkistöä. Koska edes kaikkia eurooppalaisten kielten vaatimia kirjaimia ei voida mahduttaa 256 merkkiin, kielet oli jaoteltava alueittain ryhmiin, joista kullekin luotiin oma merkistö.
 
Merkistöjen välisistä eroista johtuu, että jos luetaan tekstitiedostoa, joka on tallennettu toisenlaisella merkistöllä, osa merkeistä korvautuu toisilla. Tällöin tekstiä voi olla vaikea tai mahdoton ymmärtää. Jos tiedoston alkuperäinen merkistö tunnetaan, tiedosto voidaan kääntää toisen merkistön mukaiseksi, mutta jos kohdemerkistössä ei ole käytössä samoja merkkejä kuin alkuperäisessä tekstissä, osa merkeistä voi hävitä. Kaikki ISO 8859 -merkistöt ovat kuitenkin yhteensopivia AsciinASCIIn kanssa, joten numerot 0–9, kirjaimet A–Z ja a–z sekä tavallisimmat väli- ja erikoismerkit pysyvät aina samoina.
 
==ISO 8859 -merkistöt==
Rivi 86:
 
==Monitavuiset merkistöt==
Kahdeksanbittinen koodaus ei riitä [[Itä-Aasia]]n kielissä tarvittavien merkkien esittämiseen, joten siellä on jouduttu kehittämään oma tekniikka, jotta sikäläisiä kieliä ylipäätään voisi kirjoittaa tietokoneella. Nämä merkistöt sisältävät [[Ascii]]ASCII-merkkien lisäksi yleiset paikallisesti tarvittavat merkit, mutta eivät muiden Itä-Aasian kielten merkkejä tai eurooppalaisten kielten erikoismerkkejä.
 
Ensimmäinen tällainen merkistö oli japanilainen [[JIS X 0208]], joka otettiin käyttöön jo [[1976]]. JIS X 0208 oli ensimmäinen ''monitavuinen merkistö'', jossa yhden merkin tallentamiseen käytetään useita tavuja tietokoneen muistissa. JIS X koostuu 94 × 94 merkin ruudukosta, johon voidaan määrittää 8836 merkkiä. Käytännössä merkit koodataan kahdella peräkkäisellä [[Ascii]]nASCIIn kirjoitusmerkillä. Merkistöstä on useita versioita, joista [[JIS X 0212]] on uusin.
 
Monitavuisen merkistön käsittely ja tiedon välittäminen voi olla vaikeaa, kun ohjelmat ja protokollat olettavat käytettäväksi kahdeksanbittistä merkistöä. Monitavuisten merkistöjen välittämiseksi on kehitetty koodauksia eri tarkoituksiin:
 
* [[EUC]] (''Extended Unix Code'') on koodaus, joka mahdollistaa AsciiASCII-merkistön käyttämisen esimerkiksi [[Unix]]-komennoissa ja tiedostonimissä samaan aikaan monitavuisen merkistön kanssa.
* Japanilaisen ASCII-yhtiön kehittämä [[Shift-JIS]] on koodaus, joka siirtää JIS:n [[katakana]]-merkistön 8-bittiselle alueelle.
* [[ISO-2022]] määrittelee sarjan koodeja, joilla merkistöä voi vaihtaa kesken tekstin ja siten käyttää lomittain eri merkistöjä ja merkkejä.