Historier fra det virkelige liv slår altid en masse tør teori – ikke mindst for mig, der bestemt hører til i kategorien “praktiker”. Og jeg har nu indsamlet materiale til sådan historie, der kun alt for godt viser, hvor galt det kan gå, når en hjemmeside er plaget af duplicate content. Historien er nok mest interessant for webfolk, men pointen er for alle, der har en hjemmeside.

I juli skrev jeg om, at danske CMS leverandører sover i timen.  Udgangspunktet for det indlæg var en opgave for en virksomhed, hvis hjemmeside er bygget i et dansk CMS, der konsekvent glimrer ved at have alt spejlet og nydeligt indekseret på mindst ét udviklingsdomæne.

Det problem fik vi rettet relativt hurtigt – naturligvis kun for den pågældende kunde. Resten af kunderne på systemet ligger fortsat nydeligt replikeret – som forventet. Men det har efterfølgende vist sig at have ret store konsekvenser for vores kunde. Og det er det, jeg vil fortælle om her.

Smidt helt i kulkælderen

Lad os kalde vores kundes hjemmeside for “hjemmeside.dk” og CMS husets for “cmshus.dk”. Her er flowet i sagen:

  1. Webbureau bygger hjemmeside for vores kunde i et CMS. Der udvikles på et udviklingsdomæne på cmshus.dk, og dette crawles og indekseres af Google. Skidt – men sådan gør de nu engang.
  2. Vores kunde sætter hjemmeside.dk i luften, og den crawles og indekseres også.
  3. Google siger: “Aha – det her indhold kender vi godt fra cmshus.dk, og det var jo der, det lå først. Samtidig har cmshus.dk en højere rank hos os, så hjemmeside.dk må være en kopi, vi ikke gider vise i vores indeks”.
  4. Vi kommer på sagen og får fjernet udviklingsdomænets indhold. Vi får skrevet ordentlige sidetitler, lavet bedre intern linkstruktur og alt det der.
  5. Google vil fortsat ikke vise sider fra hjemmeside.dk med undtagelse af en direkte søgning på firmanavnet – men Google har crawlet og indekseret samtlige sider på sitet (ca. 70). Forsiden har en PR5!
  6. Vi tester nu med søgninger på helt unikke tekststrenge fra hjemmeside.dk, og det viser sig, at vores kunde for længe siden har udsendt pressemateriale med bl.a. det meste af teksten fra forsiden på hjemmeside.dk. Dette materiale ligger nu online små 60 steder iflg. Google – men ikke på hjemmeside.dk (stadig iflg. Google).

Hvad er der sket her?

Google har fundet teksterne på cmshus.dk først og fremmest – og antaget, at det så var den rigtige site.  Vores kunde er gået i luften med hjemmeside.dk. Dernæst har vores kunde udsendt teksterne og mange hjemmesider har lagt dem på. Google crawler det hele og tager den beslutning, at hjemmeside.dk er sidst ankomne i en lang række af sites med samme tekst – og at hjemmeside.dk er den nyeste og uden historik, trust og alt det der. Og så er den røget helt ned i kælderen i supplerende indeks. Også efter forsiden er tildelt PR5.

Hvordan løser vi dette?

Vores kunde må nu omskrive teksterne på flere sider for at dokumentere unikt indhold over for Google. Indgående links alene gør det ikke.

Morale

Alt dette kunne have været undgået, hvis CMS huset havde vidst, at der findes søgemaskiner. Eller rettere: Havde taget hensyn til det, for de ved godt, de findes (markedsføres som søgemaskineeksperter…).

Og så er det altså ikke en god ide at benytte 70-80% af sit unikke tekstinhold fra hjemmesiden i pressemateriale. Men det gør vores kunde med garanti heller aldrig igen…

Hvad siger du til den historie?

Rosenstand out!