Korpus

Korpus (latinan sanasta corpus, kokoelma tai kirjaimellisesti 'keho') on kielitieteen alalla käytetty, tarkoin määrätty ja koottu joukko kirjoitetun kielen tekstejä (tekstikorpus) tai puhutun kielen nauhoitteita (puhekorpus), jotka on poimittu aidoista teksteistä ja tilanteista. Niitä käytetään kieltä koskevien hypoteesien testaamiseen yhdestä tai useammasta kielestä tai joistakin niiden ominaisuuksista.^[1]^[2]

Korpuksia voidaan käyttää tietokoneella. Korpus on siis sähköinen varasto tekstejä tai nauhoitteita. Korpuksia käytetään, kun tutkitaan ilmaisujen käyttöä, lasketaan niiden yleisyyksiä tai arvioidaan tutkimusoletuksia. Kun kielitieteilijä haluaa selvittää jonkin sanan tai rakenteen käyttäytymistä, hän voi hakea korpuksesta sanan esiintymismuotoja, sen naapurisanoja ja hyviä esimerkkejä sanan käytöstä. Korpuksia voidaan käyttää myös muihin kielentutkimuksen kannalta olennaisiin tarkoituksiin. Suurin osa maailman korpuksista on tekstikorpuksia, vaikka kielitieteen perinteessä puhuttua kieltä pidetään usein kirjoitettua alkuperäisempänä.^[2]

Korpustutkimuksessa tarkastelun kohteina voivat olla esimerkiksi seuraavanlaiset kysymykset:

kuinka usein sana esiintyy tekstissä, (frekvenssi eli taajuus)?
missä yhteydessä se esiintyy tai mitkä sanat tai fraasit esiintyvät usein sen lähellä, (konkordanssi)?^[3]
mitä sanaa tai fraasia yhdellä kielellä käytetään yleisimmin toisen kielen sanan tai fraasin vastineena?

Korpusten sisältö ei välttämättä sovi täsmälleen kaikkeen kielitieteen tutkimukseen. Sähköisten aineistojen merkitys kielen tutkimisessa vahvistuu jatkuvasti.^[2]

Suomessa muokkaa

Kotimaisten kielten keskus on jatkuvasti mukana keräämässä erilaisia kieliaineistoja tutkijoiden käyttöön. Näihin kuuluu muun muassa sanalippuja, puhetilanteiden nauhoituksia ja eri tavoin rikastettuja sähköisiä tekstiaineistoja. Kotus on esimerkiksi koostanut korpuksen 1900-luvun suomenkielisistä aikakauslehtiteksteistä. Lisäksi keskuksessa on suomen ja suomenruotsin rinnakkaiskorpus. Tutkimuskeskuksessa on muun muassa kirjalliseen muotoon saatettuja murrehaastatteluja, eri murrealueiden sananparsia ja vanhoja tekstejä kirjakielen syntyajalta 1500-luvulta 1800-luvun lopulle saakka. Suomen suurinta sähköistä korpusta, Kielipankkia, hallinnoi kuitenkin Tieteen tietotekniikan keskus, CSC. Kielipankki sisältää noin 230 miljoonaa sanaa suomen ja suomenruotsin aineistoja.^[2]

Monet Kotuksen aineistoista ovat sellaisia, että niitä ei voi tarjota vapaasti kansalaisten käyttöön. Tämä johtuu muun muassa tekijänoikeuslainsäädännöstä ja tarpeesta suojata haastateltujen ja heidän lähipiirinsä yksityisyyttä. Näin on esimerkiksi yksityishenkilöiden haastatteluihin perustuvissa murreaineistoissa.^[2]

Lähteet muokkaa

↑ Antti Arppe: Korpukset ja kieli (Powerpoint) ling.helsinki.fi. Arkistoitu 17.7.2007. Viitattu 31.12.2008.
↑ ^a ^b ^c ^d ^e Korpukset ja kielen tutkiminen Kotimaisten kielten keskus. Viitattu 15.12.2023.
↑ Mikko Lounela: Konkordanssi UNIXin alkeet ja tekstikorpusten tietojenkäsittely. KIT. Arkistoitu 11.6.2007. Viitattu 04.12.2009.

Aiheesta muualla muokkaa

Kotimaiset korpukset:
- Kielipankki FIN-CLARIN -nimisen infrastruktuurikonsortion ylläpitämä palvelu, jossa runsaasti erikielisiä korpuksia (tekstejä, puhetta ym.)
- VARIENG
- KOTUKSEN korpukset
- Helsingin yliopiston monikielinen korpuspalvelin UHLCS (Arkistoitu – Internet Archive)
- Aleksis Kivi -korpus (SKS) (Arkistoitu – Internet Archive) Toim. Sakari Katajamäki, Ossi Kokko ja Elina Kela. FIN-CLARIN: Finnish Language Resource Infrastructure / CSC – Tieteen tekniikan keskus: Kielipankki 2013.

Tämä kieliin tai kielitieteeseen liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.

[Arppe-1] Antti Arppe: Korpukset ja kieli (Powerpoint) ling.helsinki.fi. Arkistoitu 17.7.2007. Viitattu 31.12.2008.

[:0-2] Korpukset ja kielen tutkiminen Kotimaisten kielten keskus. Viitattu 15.12.2023.

[Lounela-3] Mikko Lounela: Konkordanssi UNIXin alkeet ja tekstikorpusten tietojenkäsittely. KIT. Arkistoitu 11.6.2007. Viitattu 04.12.2009.

[1]

[2]

[3]