Dokumenttien luokittelu
Dokumenttien luokittelun tarkoituksena on helpottaa dokumenttien löytymistä tai käsittelyä liittämällä kukin dokumentti yhteen tai useampaan luokkaan. Luokittelua tarvitsevat kirjastot, lehtiarkistot, uutistoimistot, hakupalvelut, suuryritykset ja muut suurten tekstikokoelmien käsittelijät. Dokumentit voivat olla esimerkiksi kirjoja, lehtiartikkeleita, WWW-sivuja, sähköpostiviestejä tai yrityksen sisäisiä dokumentteja.
Luokittelua käytetään tiedonhaun apuna, ja se on yksi dokumenttien sisällönkuvailun tapa. Kirjastoissa dokumenttien luokitus on ollut käytössä kirjastojen historian alusta asti. Uusimpia dokumenttien luokittelun sovellusalueita on roskapostin tunnistaminen.
Käsitteiden suhteita luokittelussa
muokkaaDokumentit sijoitetaan luokkiin dokumentissa esiintyvine käsitteiden ja asioiden perusteella. Usein valintaperuste on dokumentin aihe. Luokat ilmaisevat näiden käsiteiden erilaisa suhteita.[1]
Paradigmaattiset tai semanttiset suhteet
muokkaaParadigmaattiset suhteet ovat suhteellisen pysyviä, aina olemassa olevia suhteita.
- Geneeriset eli laji-alalaji-suhteet (lintu–varpunen)
- Partitiiviset suhteet eli kokonaisuus-osa-suhde (Suomi–Pohjanmaa)
- Assosiatiiviset suhteet, esimerkiksi vakiintuneet tekemis–väline-suhteet (kalastus–onki/katiska)
Syntagmaattiset suhteet
muokkaaSyntagmaattiset suhteet ilmenevät tietyissä tilanteissa ja syntyvät asiayhteydessä.
- Funktionaaliset suhteet löytyvät esimerkiksi lauseen rakenteista: tekeminen–tekijä, tekeminen–väline, tekeminen–kohde, tapahtuma–syy (potkaista–potkaisija, potkaista–pallo, potkaista–uhri)
Luokittelun alalajit (automaattinen luokittelu)
muokkaaAlun perin dokumentteja ovat luokitelleet tehtävään koulutetut asiantuntijat. Ihminen ymmärtää lukemansa ja tekee harvoin karkeita virheitä luokittelussa. Käsin luokitteleminen on kuitenkin hidasta. Haittana voi olla myös ihmisen subjektiivisuus. Dokumenttikokoelmien kasvaessa on alettu käyttää apuna tietokoneohjelmia.
Yksi vaihtoehto on asiantuntijajärjestelmä eli asiantuntijoiden tietämyksen mallintaminen sääntökokoelmaksi. Hyvin toimivien sääntöjen löytäminen voi kuitenkin osoittautua työlääksi, ja säännöstö saattaa paisua laajaksi ja vaikeasti ylläpidettäväksi.
Nopeamman ja joustavamman vaihtoehdon tarjoaa koneoppiminen eli luokittelusäännöstön tai -mallin automaattinen muodostaminen. Jos käytössä ei ole valmiiksi luokiteltua aineistoa tai jos dokumenttien väliset yhteydet halutaan selvittää ilman etukäteen määrättyjä luokkia, luokitteluohjelma voi perustua ohjaamattomaan oppimiseen ja vain pyrkiä liittämään yhteen toisiaan muistuttavat dokumentit. Tällöin puhutaan dokumenttien ryvästämisestä eli klusteroinnista.
Ohjatussa oppimisessa luokitteluohjelman käytössä on etukäteen luokiteltu opetusaineisto. Tarkoituksena on luoda aineiston pohjalta malli tai säännöstö, jonka avulla ohjelma voi luokitella uusia dokumentteja.
Luokittelumenetelmiä (automaattinen luokittelu)
muokkaaDokumenttien luokittelun ensimmäinen vaihe on yleensä luokittelussa käytettävien piirteiden valinta. Yleensä tarkastellaan tekstin sisältämiä sanoja tai ilmauksia ja niiden frekvenssejä, mutta myös dokumentin metatiedosta voi olla hyötyä. Kieliteknologian menetelmiä voidaan käyttää piirteiden valintaan. Luokiteltavasta tekstistä voidaan esimerkiksi poimia kaikki termit, tai tekstin sanat voidaan palauttaa perusmuotoon morfologisella analyysilla.[2]
Valitut piirteet syötetään varsinaiselle luokittelualgoritmille. Luokitteluun on käytetty mm. seuraavia menetelmiä:
- naiivi Bayesin luokitin (katso myös bayesilainen suodatus)
- latentti semanttinen indeksointi
- tukivektorikoneet
- Kohosen itseorganisoiva kartta (ohjaamatonta oppimista)
Luokittelujärjestelmiä (kirjastoluokitukset)
muokkaaLuokittelujärjestelmiä ja -kaavoja on tehty moniin eri tarkoituksiin. Järjestelmät poikkeavat toisistaan sekä rakenteeltaan, että katteeltaan.
Universaaliluokitukset ovat yleisiä luokituskaavoja, jotka kattavat periaatteessa kaikki tieteen- ja tiedonalat, ja ovat yleensä kansainvälisessä käytössä. Tunnettuja esimerkkejä näistä ovat
- Dewey Decimal Classification system (DDC), käytetyin luokituskaava maailmassa
- Yleinen kymmenluokittelu, Universal Desimal Calssification (UDK), Suomessa käytössä etenkin tekniikan ja luonnontieteen oppilaitoksissa
- Colon Classification (CC)
- The Library of Congress Classification (LCC)
Kansalliset yleisluokitukset on suunniteltu yhden maan käyttöön. Suomalainen esimerkki tällaisesta on Yleisten kirjastojen luokitusjärjestelmä(YKL). Se on DDC:n sovellus, joka on kehitetty suomalaisten yleisten kirjastojen tarpeisiin.
Tietyille tieteenaloille on myös suunntieltu luokituskaavoja. Esimerkiksi lääketiedettä varten on laadittu luokitusjärjestelmä National Library of Medicine Classification (NLM).[1][3]
Palvelukohtaiset luokitukset ovat yleisiä erityisesti internetissä. Ne perustuvat käyttäjälähtöiseen käsitysmaailmaan ja haastavat perinteistä luokitusajattelua. Palvelun käyttöön muodostetut luokitukset ovat helposti muunneltavissa. Esimerkkejä palvelukohtiasista luokitteluista ovat[3][4]
- Yahoo
- Open Directory
Katso myös
muokkaaLähteet
muokkaa- ↑ a b Suominen, V. & Saarti, J. & Tuomi, P.: Bibliografinen valvonta: Johdatus luetteloinnin ja sisällönkuvailun menetelmiin.. Helsinki: BTJ, 2009. ISBN 978-951-692-717-9.
- ↑ Mikko Silvonen: Suomenkielisten lehtiartikkelien luokittelu. Pro gradu -työ. Helsingin yliopisto, tietojenkäsittelytieteen laitos, 1998. C-1998-58. Teoksen verkkoversio.
- ↑ a b Alaterä, Anu & Halttunen, Kai & Sormunen, Eero: Tiedon organisoinnin ja kuvailumenetelmien perusteet -opintoaineisto (Osa 6. Sisällönkuvailu: luokitus ja indeksointi) Internetix. 2001-2005. Arkistoitu 26.10.2008. Viitattu 10.11.2010. (suomeksi)
- ↑ Smith, Gene: Tagging: People-Powered Metadata for the Social Web. Berkeley: New Riders, 2008. ISBN 978-0-321-52917-6.