I den aldrig færdige historie om duplicate content har den lille frække sag kaldet robots.txt været nævnt nogle gange, og en gennemgang af mulighederne med den fil er blevet efterlyst. Derfor snupper vi lige et hurtigt kig på robots.txt og det, du kan gøre med den. En lille advarsel er på sin plads: Lad være med at rode med den, hvis du ikke ved, hvad du gør. Jeg er i min tid stødt på flere robots.txt, der effektivt har hindret en ønsket indeksering af hele hjemmesider eller dele af dem.

Opdateret december 2014:

Det er vigtigt, at du forstår, at du IKKE kan forhindre indeksering af en eller flere URLs med robots.txt. Det eneste, du kan med robots.txt er, at du kan forhindre søgerobotterne i at crawle selve indholdet på en URL. Men URl’en vil stadig være at finde i Google og i andre søgemaskiner! Hvis du sætter en URL til “disallow”, kan Google ikke læse nogen direktiver på den URL, du måtte have indsat – som for eksempel Canonical URL Tag, “noindex” eller andet.

Læs denne artikel om Meta Robots kontra robots.txt

Hvad er robots.txt?

En robots.txt fil er en fil i txt format, som placeres i roden af din hjemmeside. Når en søgerobot som for eksempel Googlebot besøger din hjemmeside, vil den først og fremmest undersøge, om der findes en robots.txt – og gør der det, vil robotten som oftest rette sig efter de anvisninger, den får fra filen.

Lad os ramme en pæl gennem en myte: Hvis du ikke har behov for at spærre adgangen for en søgemaskine til dele af din hjemmeside, behøver du ikke have en robots.txt

Lær nu at bruge robots.txt korrekt! Click To Tweet

Hvorfor spærre med robots.txt?

Hvis du har statiske printvenlige sider, er det et must, at disse ikke crawles – for ellers får du problemer med duplicate content. Det kan også være tilfældet med PDF versioner af dit indhold.

Måske har du sider eller hele foldere med f.eks. passwordbeskyttet indhold, du ikke ønsker en søgerobots nysgerrige næse i. Det kan også være sider som indkøbskurven i en webshop eller lignende.

Hvordan bruges robots.txt?

Du kan skrive din robots.txt i f.eks. Notepad og uploade den til dit webhotel. Husk, at filen skal hedde robots.txt, og den skal ligge i “roden” af din hjemmeside. Når den er uploadet, skal du kunne se den i din browser ved at skrive din hjemmesideadresse/robots.txt

Hvis du vil spærre helt for adgangen til din hjemmeside for søgerobotter:

User-agent: *
Disallow: /

Pas på den! Med den vil INTET på din hjemmeside blive indekseret i Google eller andre søgemaskiner.

Hvis du har f.eks. PDF filer i en mappe med navnet “PDF”, og du ikke vil have dem indekseret:

User-agent: *
Disallow: /PDF/

Her vil alt andet på hjemmesiden blive crawlet – men ikke mappen /PDF/

Hvis du har en bestemt side (fil) på din hjemmeside, du vil spærre for:

User-agent: *
Disallow: /hemmelig-fil.html

Her springer robotterne bare den ene fil over.

Hvis du vil spærre for en bestemt søgerobot og tillade alle andre:

User-agent: googlebot

Disallow: /

User-agent: *
Disallow:

Her vil Googlebot være spærret for – men alle andre robotter kan komme til.

Her kan du downloade en liste med over 300 kendte søgerobotter: Robotter

Hvis du vil spærre for adgangen til en folder – men tillade en enkelt fil i samme folder:

User-agent: *
Disallow: /folder/
Allow: /folder/maa-indekseres.html

Det er de væsentlige muligheder – og de kan kombineres, så det burde være muligt at opnå det, du gerne vil. Lad mig gentage: Én fodfejl er nok til at hele din hjemmeside eller vigtige dele af den fjernes fra søgemaskinernes indeks indtil fejlen rettes. Så tjek – dobbelttjek og gør det igen. Eller ring til en ven…

Google har glimrende information om emnet – og det har Robotstxt.org også.

Rosenstand out!