Ero sivun ”Merkistö” versioiden välillä
[arvioimaton versio] | [arvioimaton versio] |
Poistettu sisältö Lisätty sisältö
johdantoa tiivistetty ja jäsennetty uudestaan |
merkki tietoteknisenä käsitteenä |
||
Rivi 1:
'''Merkistö''' on [[tietotekniikka|tietotekniikassa]] ja [[tietoliikenne|tietoliikenteessä]] sopimus, joka määrittelee, miten [[bitti]]
* <code>64</code> = @
Rivi 8 ⟶ 6:
* <code>67</code> = C
Kaikki nykyaikaiset [[tietokone]]et käsittelevät dataa kahdeksanbittisinä [[tavu (tietotekniikka)|tavuina]],
Tietokone pystyy käsittelemään oikein vain sellaisia merkkejä, jotka sisältyvät sen tuntemaan merkistöön. Koska merkistöjä on useita erilaisia, on myös oltava selvillä, mitä merkistöä kulloinkin on käytettävä. Väärän merkistön käyttö johtaa
==Merkki tietoteknisenä käsitteenä==
▲Tietokone pystyy käsittelemään oikein vain sellaisia merkkejä, jotka sisältyvät sen tuntemaan merkistöön. Koska merkistöjä on useita erilaisia, on myös oltava selvillä, mitä merkistöä kulloinkin on käytettävä. Väärän merkistön käyttö johtaa usein informaation vääristymiseen tai katoamiseen.
Erillisiksi merkeiksi merkistössä jäsentyvät [[suuraakkonen|isot]] ja [[pienaakkonen|pienet]] kirjaimet, samoin kuin [[numero]]t sekä erikois- ja [[välimerkit]]. Merkeiksi lasketaan myös itsessään näkymättömät tai kuviottomat kirjoitusmerkit, kuten [[välilyönti]], ja lisäksi merkistöön yleensä sisältyy erityisiä teknisiä ohjaus- eli kontrollimerkkejä. Merkin käsitteeseen ei sisälly kirjoitusmerkin leikkaus eli tyyli, joka voi vaihdella melkoisesti [[kirjasinlaji]]n mukaan.
Eri kirjoitusjärjestelmiin kuuluvat kirjaimet katsotaan usein erillisiksi merkeiksi, vaikka ne näyttäisivät keskenään aivan samanlaisilta, kuten [[latinalainen aakkosto|latinalainen]] suuraakkonen [[A]], [[kyrillinen kirjaimisto|kyrillinen]] suuraakkonen [[А]] ja [[kreikkalainen kirjaimisto|kreikkalainen]] suuraakkonen [[Α]] (alfa, pienaakkosena α). Yhden kirjoitusjärjestelmän piirissä käytettävät merkitkään eivät aina ole ulkonaisesti erotettavissa toisistaan, sillä [[Unicode]]-merkistössä on esimerkiksi useita viivamerkkejä hieman erilaisiin tarkoituksiin: tavallinen [[yhdysviiva]] (U+002D eli niin sanottu yhdysmerkki-miinus) sopii tarvittaessa sekä yhdysviivaksi että etenkin tietotekniseksi [[miinus]]merkiksi, mutta vaihtoehtoisesti voidaan käyttää erityistä yhdysmerkkiä (U+2010), joka on tarkoitettu käytettäväksi pelkästään yhdysviivana, [[sitova yhdysmerkki|sitovaa yhdysmerkkiä]] (U+2011), jonka jälkeen rivinvaihto ei ole sallittu, sekä miinusta (U+2212), joka on tarkoitettu erityisesti [[typografia|typografiseksi]] miinusmerkiksi. Näistä typografinen miinusmerkki on muita selvästi pitempi, mutta muut ovat (tai ainakin niiden pitäisi olla) keskenään aivan samannäköisiä.
== Historia ==
Ensimmäisinä merkistöinä voidaan pitää [[
Koska Ascii on 7-bittinen ja tietokoneet käyttävät yleisesti 8-bittistä tavua, monet tietokonevalmistajat tarjosivat käyttöön laajempia merkistöjä, joissa ylimääräiseksi jäänyt bitti otettiin käyttöön. Tällä tavoin Asciin mahdollistamien merkkien määrä kaksinkertaistui 128:sta 256:een. Näissä merkistöissä 128 ensimmäistä merkkiä vastasivat yleensä Asciita, mutta loput merkkipaikat voitiin omistaa esimerkiksi muiden kielten tarvitsemille kirjaimille. Nämä laajennetut merkistöt olivat kuitenkin eri tietokonevalmistajilla hyvin erilaisia.
Yhtenäisten 8-bittisten merkistöjen kehittämiseksi vuonna
Merkistöjen välisistä eroista johtuu, että jos luetaan tekstitiedostoa, joka on tallennettu toisenlaisella merkistöllä, osa merkeistä korvautuu toisilla. Tällöin tekstiä voi olla vaikea tai mahdoton ymmärtää. Jos tiedoston alkuperäinen merkistö tunnetaan, tiedosto voidaan kääntää toisen merkistön mukaiseksi, mutta jos kohdemerkistössä ei ole käytössä samoja merkkejä kuin alkuperäisessä tekstissä, osa merkeistä voi hävitä. Kaikki ISO 8859 -merkistöt ovat kuitenkin yhteensopivia Asciin kanssa, joten numerot 0–9, kirjaimet A–Z ja a–z sekä tavallisimmat väli- ja erikoismerkit pysyvät aina samoina.
|