Êtes-vous un bon élève qui respecte les règles de référencement naturel ? Si oui, vous devez probablement savoir que Google pénalise sévèrement le contenu dupliqué ou « duplicate content » comme disent nos voisins anglais. En effet, le géant des moteurs de recherche privilégient les sites qui ont des contenus riches, uniques et de qualité, car n’oublions pas que l’objectif premier de Google est de fournir les meilleures informations aux internautes ! Il semble donc évident que le contenu dupliqué ne soit pas autorisé par la firme de Mountain View …
Petite définition du duplicate content
Le duplicate content signifie qu’un même contenu est présent sur plusieurs pages, soit sur un même site soit sur 2 sites différents. Lorsqu’il s’agit d’un contenu identique sur plusieurs sites différents, on parle alors de duplicate externe (ce qui comprend notamment le plagiat).
Pourquoi le contenu dupliqué est-il pénalisé ?
Face à des contenus identiques, les robots d’indexation sont déroutés car ils parcourent deux fois la même information strictement identique sur deux adresses URL différentes. Leur mission pour délivrer l’information la plus pertinente à l’internaute semble alors compromise … Les robots se retrouvent donc face à un dilemme : parmi tous les contenus dupliqués, lequel sélectionner pour les requêtes des internautes ? Perte de qualité et de trafic sont donc les conséquences de ce type de contenus, mais cela ne s’arrête pas là. Le contenu dupliqué peut conduire à d’autres problèmes :
- Difficulté à se différencier des concurrents sur un mot-clé ciblé.
- Métriques des liens qui se retrouvent biaisées (trust flow, linkjuice, autorité, ancres) car il est difficile de rediriger vers le bon contenu.
- En cas de duplicate content interne (sur votre propre site), votre quota de pages à crawler étant limité par jour, vous risquez de faire crawler aux robots Google plus de pages que nécessaire.
- Si un contenu est indexé plusieurs fois, Google ne saura pas toujours lequel est le bon pour l’afficher dans les résultats. Expérience utilisateur médiocre et efficacité SEO mauvaise.
Quels sont les risques en cas de contenu dupliqué ?
Les conséquences en terme de référencement peuvent être très lourdes :
- Le site qui a copié le contenu verra son positionnement chuter dans les résultats naturels de recherche.
- Le site copieur peut complètement disparaitre des résultats et n’être plus référencé par Google.
Autant dire, qu’on ne badine pas avec le duplicate content … Mieux vaut prévenir que guérir comme on dit ! Lisez la suite pour savoir quels contenus il faut éviter de dupliquer.
Quels types de contenus faut-il éviter de dupliquer ?
Que l’on soit d’accord, de manière générale vous ne devez pas faire de contenus dupliqués mais certains types de contenus feront plus de dégâts que d’autres sur votre SEO.
Les versions de pages similaires
Les versions de pages en www, sans www, .com, .com/index, http ou https sont considérées par Google comme des pages différentes alors qu’elles représentent toutes la même page. Elles passent alors comme du contenu dupliqué.
Google incite donc les webmasters de différencier chaque version pour mettre en avant la version officielle de la page. Exemple : pour la version d’un site avec ou sans les 3w, la redirection permanente (301) permet de privilégier la version principale du site web.
Les filtres et catégories
C’est le cas notamment pour les sites e-commerce qui disposent de nombreux filtres et catégories pour aider l’internaute à rechercher des produits.
Prenons l’exemple d’un site de vente de chaussures. Dans la catégorie « escarpins », vous allez retrouver plusieurs filtres : pointure, marque, type qui vont vous permettre d’affiner votre recherche. Vous avez choisi votre paire qui, au passage, se décline en bleu, noir, rouge, etc. L’expérience utilisateur est top car vous êtes assisté dans votre requête par les multiples filtres. Mais attention, trop souvent ces pages ont des URLs différentes car le contenu qui est repris est identique sur toutes les pages. La description pour les escarpins bleus et rouges seront identiques, or l’URL n’est pas la même entre ces deux pages. Cela est donc perçu comme du contenu dupliqué.
Vous pouvez décider d’indexer ou non ces pages mais cela va dépendre de la richesse de vos contenus.
- si vos différentes pages ont des contenus différents : vous pouvez les indexer
- si vos pages ont des contenus identiques : ne les indexez pas. Pour cela, vous pouvez utiliser les moyens traditionnels de désindexation comme : le robots.txt, la gestion des paramètres des URLs dans Search Console ou la balise canonical. Attention, le suivi par un expert SEO est recommandé pour ce type d’opérations !
Les fiches produits
C’est notamment le cas pour les sites e-commerce. Si vous décidez d’utiliser les descriptions produits de votre fournisseur, vous risquez de pénaliser votre site, le sien mais aussi les autres sites qui utilisent la même description. En effet, vous n’êtes probablement pas le seul à vous procurer ces produits auprès de votre fournisseur, les fiches produits seront donc affichées sur de nombreux autres sites web. Google va donc considérer que vos fiches produits contiennent du contenu dupliqué. Veillez donc à ré-écrire vos descriptions, surtout si vous décidez de vendre vos produits sur différentes places de marché.
Les versions imprimables
Le contenu de vos pages peut être imprimé (sans la navigation, la sidebar, etc). Et, ce contenu imprimable est classé dans un dossier print qui est identique à celui présent sur le site web. Or, Google ne fait pas la différence entre les deux. Si plusieurs versions d’une page sont indexées, vous risquez donc de vous exposer à une pénalité Google.
Les contenus issus de sites tiers
Si vous intégrez du contenu qui provient d’un autre site comme une citation ou un commentaire, vos informations risquent d’être considérées comme étant dupliquées, même si vous avez fait l’effort de mettre un lien avec la source originale. Google n’apprécie pas ce genre de méthode et cela pourrait se faire ressentir sur votre score de qualité.
Les outils pour repérer le duplicate content interne et externe
Je vous avais déjà parlé dans mon article « 15 astuces SEO » d’outils gratuits en ligne qui permettent de détecter à la fois les contenus dupliqués internes et externes.
Petit rappel de ces outils :
Siteliner (interne)
Sur Siteliner, les contenus dupliqués internes s’afficheront dans une autre couleur que celle de la page que vous êtes en train d’analyser. Il vous suffira juste de modifier le contenu considéré comme dupliqué. Un conseil : commencez par les pages les plus importantes de votre site, vous pouvez les identifier grâce au score du Page Power.
Copyscape
Copyscape est un outil qui permet de détecter les contenus plagiés, c’est-à-dire les contenus en double présents sur le web.
Plagium
Plagium, comme son nom l’indique, est un outil en ligne gratuit comme Copyscape qui permet de repérer les contenus dupliqués externes, en dehors de votre site web.
Autre méthode simple et gratuite
Si vous ne souhaitez pas passer par ces outils, vous pouvez tout simplement copier un extrait d’une page provenant de votre site web ou d’un tiers et le coller directement dans la recherche Google. S’il y a plusieurs résultats qui s’affichent, cela signifie que votre contenu se retrouve sur d’autres pages.
Quelles sont les méthodes pour éviter le contenu dupliqué ?
Je vous avais parlé plus haut des méthodes traditionnelles de désindexation pour éviter le contenu dupliqué.
Redirection permanente 301
La redirection 301 est faite pour aider les moteurs de recherche à savoir quelle version de page est à indexer. C’est-à-dire qu’elle permet de déterminer la version originale. Avec cette technique, les pages secondaires ne sont plus accessibles.
La balise canonical
La balise canonique est probablement plus simple à mettre en place . Elle signale aux moteurs de recherche que vous êtes conscient que votre version n’est pas l’originale. Par conséquent, le link juice ne sera pas attribué à votre page mais à la page de destination indiquée. Avec cette technique, comme pour la redirection permanente, le poids est reporté. Cependant, la page redirigée reste consultable.
Le NoIndex, NoFollow
Ces attributs permettent de ne pas indexer des pages dupliquées ni de suivre les liens qui sont présents dessus. Cela n’impactera donc pas votre référencement.
Les descriptions de produits uniques
Pour les sites e-commerce, nous vous conseillons au maximum de rédiger des fiches produits uniques même si souvent seule la couleur peut différer. Cette opération vous prendra certes du temps mais elle vous permettra de gagner des positions à long terme sur vos concurrents, qui eux, auront gardés des descriptions identiques.
Et vous quelles sont vos solutions pour éviter le duplicate content ? Si vous avez déjà été pénalisé par Google concernant le contenu dupliqué, contactez-nous, nous vous sortirons rapidement de cette mauvaise situation !