Skal du bruge robots.txt til at rette op på hjemmesidesnedkernes fejl eller hvad nu formålet med at bede søgemaskinerne undlade at indeksere dit indhold måtte være – eller skal du bruge “Robots Meta Tag”? Forvirringen er total, og i takt med at flere og flere velmenende giver “gode råd” om søgemaskineoptimering, stiger forvirringen blot endnu mere. Derfor har jeg besluttet at give mit beskedne bud på, hvordan du kan bruge disse muligheder. Men først skal vi lige have én ting helt og aldeles på plads.

Det er 100 gange bedre at undgå fejl end at lappe på dem

– men er skaden først sket, er det stadig bedre at gøre NOGET fremfor ingenting. Sådan lidt som hvis du arbejder med en skarp kniv. Det er bedst at undgå at skære sig, men smutter kniven og skærer dig, er det bedre at sætte et plaster på end at bløde ihjel.

Der kan være masser af andre grunde til at ønske at blokere søgemaskinernes adgang til visse dele af sin hjemmeside end lige fejlopbygning, der resultater i duplicate content. I denne artikel tager jeg dog udelukkende udgangspunkt i problemstillinger med duplicate content, der ikke lader sig rette med mere hensigtsmæssige metoder. Læs det lige igen – så er vi helt sikre på, at vi er enige om, at alt i denne artikel handler om symptombehandling og ikke om helbredelse.

Jeg tillader mg at tage udgangspunkt i, at du kender til problematikkerne med duplicate content. Gør du ikke det, kan du lære det hele i SEO-LEX 😉

Den socialdemokratiske model har skylden!

Den overskrift kræver nok lidt forklaring – men faktisk er det, jeg kalder for den socialdemokratiske model skyld i, at vi overhovedet skal bøvle mellem robots.txt og Robots Meta Tag. Forklaring: Masser af udbydere af shopsystemer og CMS anlægger den grundlæggende socialdemokratiske opfattelse, at kan alt ikke blive lige godt, skal alt i hvert fald være lige ringe. Adskillige shopsystemer giver ikke deres brugere muligheden for at benytte et “noindex” i headeren til en given URL, og deres forklaring er (i flere tilfælde), at det er ikke alle deres kunder, der kan finde ud af at bruge den løsning. Altså: Kan alle ikke finde ud af det, skal ingen have muligheden. Det er det, jeg mener med den socialdemokratiske model 😉

Når vi så sidder og arbejder med for eksempel en shop, der er bygget i et system, der latent genererer duplicate content, og vi ikke har nogen mulighed for at benytte hverken unikke Robots Meta pr. URL eller sætte en korrekt canonical URL, sidder vi med kun to muligheder:

  1. Ignorere problemet og sige “Insha Google” (lægge det i Googles hænder) eller
  2. Blokere de ikke korrekte URLs med robots.txt

Nogle gange har vi endda ikke engang adgang til at arbejde med robots.txt, og så er der bare ikke andet at gøre end at presse leverandøren af systemet til at gøre sit arbejde ordentligt.

Hvad er forskellen på at bruge robots.txt og Robots Meta?

Kort fortalt betyder en blokering med robots,txt, at søgemaskinerne ikke crawler den pågældende URL. Men det betyder IKKE, at de ikke kan finde på at liste dem alligevel, hvis de synes, det er en god ide. I så fald er det blot selve URL’en, der fremgår i søgeresultatet – det kan ikke være andet, for søgemaskinen har ikke crawlet indholdet. Måske husker du den lidt testosteron prægede forklaring fra 2007 på crawling, indeksering og ranking?

Altså: En URL kan sagtens være med i f.eks. Googles indeks, selvom den er blokeret med robots.txt. Den bliver så blot ikke crawlet, og som følge heraf kan det tekstmæssige indhold på siden heller ikke generere duplicate content.

Du kan se et eksempel på en URL fra vores bd-store.dk, der er blokeret med robots.txt, men som alligevel er med i Googles indeks. Hvorfor vi ikke har benyttet Robots Meta Tag i stedet? Fordi DanDomain bruger den socialdemokratiske model 😉

Som du kan se, er der ingen description med.

Bruger du til gengæld Robots Meta Tag, får du langt flere muligheder og en større effekt. Lad os se lidt på det tag nok engang. Og husk nu lige, at det er helt og aldeles overflødigt, hvis du gerne vil have søgemaskinerne til at indeksere indholdet på en side og følge evt. links på siden.

Det levner os reelt med tre mulige kombinationer:

  1. <META NAME=”ROBOTS” CONTENT=”NOINDEX, FOLLOW”>
    Her siger vi til søgemaskinerne, at de ikke skal indeksere indholdet på den pågældende side, men at de skal følge de links, de møder under deres crawl af siden. Det er praktisk i mange tilfælde, hvor du gerne vil have linkværdi ud af en side, selvom den ikke skal indekseres. For eksempel hvis du har en 404 fejlside som denne: https://www.concept-i.dk/404
  2. <META NAME=”ROBOTS” CONTENT=”INDEX, NOFOLLOW”>
    Her siger vi til søgemaskinerne, at de skal indeksere det indhold, der er på siden – men at de ikke skal tillægge de links, de finder på siden under deres crawl nogen værdi. Det kunne være f.eks. betalte links, som du ikke vil have bank af søgemaskinerne for.
  3. <META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>
    Her siger vi til søgemaskinerne, at de ikke skal gøre noget som helst – de skal simpelthen holde snuden væk. Og det gør de så.

Hvilken er bedst – robots.txt eller Robots Meta?

Igen: Husk nu, at vi i denne artikel alene forholder os til at sætte plaster på, når det ER gået galt – og at vi ikke har andre muligheder end de to. Den bedste løsning vil så altid være at benytte Robots Meta Tag, for så er du fri for at risikere at din “dårlige” URL alligevel dukker op i indeks. Og du kan få værdi ud af dine links på siden alligevel – det kan du ikke med robots.txt, for som du husker, crawler robotten slet ikke en URL, der er blokeret med robots.txt. Og når den ikke crawler den, kan den heller ikke finde links på den.

Skal vi lige opsummere? Det bedste er at undgå duplicate content – men på mange platforme er det ikke i skrivende stund en reel mulighed. Det næstbedste er så at kunne implementere et canonical URL tag – men hold tungen lige i munden! Det skal implementeres rigtigt – ellers er det mere skade end gavn. Det tredjebedste er at benytte Robots Meta Tag – og som rosinen i pølseenden er så robots.txt, der desværre er den eneste mulighed for tage affære på alt for mange platforme.

Jeg håber, det gav lidt afklaring? Og lad mig slutte med at vise en video med Matt Cutts fra Google, der forklarer det meget godt:

 

Rosenstand out!