Duplicate Content

Duplicate Content - in Fachkreisen oft als "DC" abgekürzt - beschreibt das Vorhandensein von gleichen - überwiegend textlichen - Inhalten auf unterschiedlichen URLs. Dabei können "doppelte Inhalte" sowohl innerhalb einer Website unter der gleichen Domain als auch auf verschiedenen, voneinander unabhängigen Webangeboten auftreten.

Duplicate Content wird von Suchmaschinenbetreibern erkannt und in den Rankings entsprechend negativ bewertet. Die Suchmaschinenbetreiber gehen von beabsichtigt vermehrten Inhalten aus, um deren Keyword Ranking und die Auffindbarkeit der Website zu verbessern. Eine typische Fehlerquelle für Duplicate Content sind fehlende/ fehlerhafte Weiterleitungen von http auf https-URLs. Eine weitere Quelle für Duplicate Content auf der eigenen Website stellen fehlende Canonical Tags dar. Unter Unique Content ("einzigartiger Inhalt") versteht man übrigens das Gegenteil von Duplicate Content.

 

Wie entsteht Duplicate Content?

Von Duplicate Content ist immer dann die Rede, sobald sich größere Textblöcke entweder auf der gleichen oder auf verschiedenen Domains wiederholen oder zumindest weitgehend ähnlich sind. DC kann sowohl intern als auch extern auftreten. Zu internen DC-Textblöcken kann es beispielsweise kommen, wenn in einem Content-Management-System wie WordPress ein Textbeitrag in mehreren Unterkategorien und somit unterschiedlichen URLs erscheint (Suche nach Schlagwörtern, Kategorien oder Erscheinungsdatum). Dies ist ein häufig auftretender Fall von internem DC. Zu externem DC kommt es u.a., wenn im Rahmen von Kooperationen etwa journalistische Beiträge im gleichen Wortlaut auf mehreren Websites erscheinen. Aber auch schlichter Textdiebstahl führt natürlich zu DC. Das kann möglicherweise sogar gewollt zur Abstrafung des Originals seitens der Suchmaschinen führen.

 

Erkennen & Beheben von Duplicate Content

Es gibt eine ganze Reihe von Möglichkeiten, DC ausfindig zu machen. Dies kann man bereits auf manuelle Weise tun, indem man in der Google-Suche nach prägnanten Textausschnitten oder Satzbauten sucht. Wenn man diese Text-Snippets in dem Suchfeld in Anführungszeichen setzt, wird nachgenau diesem Wortlaut gesucht. Erscheinen dann mehrere Treffer in den Suchergebnissen, hat man einen klassischen Fall von DC. Google erkennt DC bereits eigenständig und gibt in diesem Fall in den Suchergebnissen den Hinweis aus, dass einige Einträge ausgelassen wurden, da mehrere Suchtreffer sehr ähnlich sind.

Im Bereich technisches SEO wird durch ein Onsite Audit Duplicate Content aufgedeckt. Erste Anzeichen von internem Duplicate Content sind gleichlautende Überschriften oder gleiche Meta Tags.

Zum Auffinden von DC-Inhalten sind andere kostenlose Tools verfügbar, mit denen man einen Duplicate Content Check onlinedurchführen kann. Hier muss man jedoch bei den Ergebnissen darauf achten, dass diese Werkzeuge mitunter auch kleine Textausschnitte wie Teaser oder Sub-Überschriften auffinden, die im Allgemeinen keine Probleme darstellen. 

Interner DC lässt sich vermeiden, indem man auf jeder Page für Unique Content sorgt. Das Kopieren von Textblöcken auf eine Landing Page verbietet sich von selbst. Sollte sich Duplicate Content nicht vermeiden lassen, helfen Canonical Tags. Diese Praxis wird häufig für Katalogprodukte in unterschiedlichen Ausführungen verwendet. Vertreibt man beispielsweise T-Shirts in unterschiedlichen Farben, gibt es immer ein Originalprodukt (z. B. Farbe Weiß). Alle Produktvarianten (Blau, Grün, Rot) sind dann Duplicate. Durch einen Vermerk im Quellcode signalisiert man Google, dass es sich um bewusste Duplicate handelt.

Häufig entsteht DC unbeabsichtigt auch dann, wenn eine Website sowohl unter "website.de" als auch unter "www.website.de" erreichbar ist. Dies lässt sich ganz einfach durch eine Weiterleitung verhindern, die dafür sorgt, dass ein Aufruf mit "www" auf die Domain ohne "www" umgeleitet wird. Hier beiist es wichtig, dass beim Aufruf von "www.website.de" der HTTP-Statuscode 301 zurückgesendet wird, damit die Bots der Suchmaschinen die Weiterleitung als solche erkennen können.