Robots.txt

internetstandardi

Robots.txt on WWW-palvelimen juurihakemistoon sijoitettava tiedosto, jolla voidaan antaa tietoja ja rajoituksia hakuroboteille ja muille verkkosivuja tutkiville boteille. Sillä voidaan esimerkiksi kieltää kaikkia robotteja tai vain yksittäisiä hakukoneita tutkimasta joitakin verkkosivuston kansioita tai tiedostoja.

robots.txt-standardi sai alkunsa sähköpostilistalla www-talk käydyistä keskusteluista vuonna 1994, eikä sitä valvo tai kehitä mikään virallinen elin. Alkuperäiseen standardiin kuuluu vain kaksi ilmaustyyppiä: Disallow kertoo mitä botilta kielletään ja User-agent mitä bottia kielto koskee. Sittemmin suosituimmat hakukoneet ovat alkaneet huomioida uusia komentoja, joita kaikki botit eivät kuitenkaan tunnista. Google kirjoitti olemassa olevat käytänteet ylös, ja ne julkaistiin Internet-standardina RFC 9309 syyskuussa 2022.

Esimerkki muokkaa

User-agent: Fasterfox
Disallow: /           # kielletään koko sivusto

# kielletään hakemisto, sen sisältämät tiedostot ja alihakemistot
User-agent: Googlebot
User-agent: MSNBot
Disallow: /hakemisto/

# sallitaan kaikki muille boteille
User-agent: *
Disallow: 

Esimerkin robots.txt-tiedostossa kielletään yhdeltä botilta koko sivuston käyttö, kahdelta botilta hakemisto ja sallitaan koko sivusto kaikille muille boteille. Tiedostoon voi merkitä kommentteja, jotka alkavat #-merkillä.

Aiheesta muualla muokkaa

Tämä tietotekniikkaan liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.