Duplicate Content les consequences SEO et les outils pour verifier le contenu duplique

Duplicate Content : les conséquences SEO et les outils pour vérifier le contenu dupliqué

Il existe à l’heure actuelle une myriade de nuisances provoquées par le duplicate content, aussi bien en SEO que pour la réputation des entreprises. Focus sur le contenu dupliqué et les outils pour le checker.

Le « duplicate content » est un phénomène où les moteurs de recherche comme Google constatent un nombre de similitudes suffisamment grand entre deux pages web pour considérer leur contenu comme « dupliqué ». En des termes plus simples à comprendre, il s’agit tout bonnement d’un copier-coller d’une page sur une autre.

Traiter la question du duplicate content reste difficile. Cependant, nous vous conseillons plusieurs pistes de réflexion pour vous en débarrasser efficacement :

  • Bien comprendre son impact sur votre activité ;
  • Identifier le type de contenu dupliqué et vous armer d’outils adaptés ;
  • Déterminer rapidement le type d’individu qui en est à l’origine ;
  • Contacter la personne et prendre les initiatives adéquates.

Quelles sont les conséquences du contenu dupliqué ?

Que cela concerne les internautes qui consultent votre site, votre notoriété ou encore vos différentes positions dans les moteurs de recherche, tous les pans de votre entreprise s’avèrent sensiblement impactés.

Une expérience utilisateur altérée

Lorsqu’un internaute effectue une recherche sur un sujet donné, il s’attend à juste titre à obtenir un contenu à forte valeur ajoutée sur chaque résultat de la SERP (Search Engine Results Page). Autrement dit, au cours de sa recherche, l’internaute suppose que chaque site visité autour d’un sujet donné lui apportera des informations pertinentes.

Dans le cas du duplicate content, il est nécessairement confronté à une perte de temps et par extension à un « clic inutile ». Déclenchant chez lui une exaspération rapide face à cette similarité entre plusieurs sites, il se montre alors davantage exigeant concernant les éléments périphériques au contenu : temps de chargement, ergonomie, design, etc.  L’expérience utilisateur, ou UX, s’en voit alors altérée et l’internaute développe un sentiment de déception.

Une image de marque entachée

Au-delà des conséquences négatives sur l’expérience utilisateur, le duplicate content vient aussi nuire à l’image de votre marque. En effet, qu’il s’agisse d’un client fidèle ou non, il associera directement au nom de votre entreprise l’image d’un « copieur », teintée d’intentions louches et frauduleuses. Or, obtenir la confiance de ses clients et des consommateurs en général constitue un des critères majeurs pour assurer la pérennité d’une entreprise. À terme, cela peut donc avoir des conséquences négatives d’un point de vue économique sur votre activité et sur votre stratégie de brand content.

Afin d’illustrer le principe de contenu dupliqué, des thèmes récurrents représentent de véritables cas d’école : la cuisine et la santé. D’un côté, des recettes sont parfois recopiées en intégralité d’un site à un autre. De l’autre, les traitements conseillés et autres facteurs déclencheurs de certaines maladies constituent les éléments les plus dupliqués entre les sites liés à ce domaine d’activité.

Une performance de ranking SEO diminuée

Le duplicate content, les internautes ne l’apprécient pas et Google non plus. L’incontournable moteur de recherche d’Alphabet dispose de nombreux algorithmes aux rôles distincts. Parmi eux se trouve notamment Panda. Désormais intégré à l’algorithme central, il a pour mission de « jauger » la qualité du contenu des sites web et, a fortiori, de pénaliser le référencement naturel de ceux au contenu de faible qualité.

Cet algorithme du moteur de recherche constitue un véritable écosystème informatique, qui présente une profonde aversion pour les pratiques insidieuses. Au sein de celles-ci préfigurent les éléments suivants :

  • Le contenu dit « dupliqué » ;
  • Le contenu fréquemment répété, ou « spammé » ;
  • Les mots-clés matraqués, ou « keyword stuffing » ;
  • Le contenu très court et à faible valeur ajoutée ;
  • Le contenu dissimulé par le CSS/le visuel (exemple : du texte derrière une image).

Dès qu’il aura considéré une page comme étant de mauvaise qualité, Panda aura la capacité d’en diminuer fortement le positionnement en guise de pénalité. Afin de pallier ce problème, il devient nécessaire de :

  • Apporter de la qualité à son contenu (analyse sémantique, liens externes et internes pertinents, informations sourcées, etc.) ;
  • Le mettre en valeur (structure Hn cohérente, éléments en gras, citations, listes à puces, visuels, vidéos, etc.) ;
  • S’assurer que « tout ce que Google voit, l’internaute le voit ».

Les différents types de contenu dupliqué

Le contenu dupliqué, ce n’est pas uniquement l’affaire « d’un site vers un autre », car il en existe plusieurs catégories. Des moyens de lutte contre un tel fléau ont d’ailleurs été développés ces dernières années afin d’en limiter l’impact sur l’activité de tous sur Internet. Aujourd’hui, nous considérons que 50% des sites possèdent du contenu dupliqué (étude SEMrush).

Le contenu dupliqué interne

Totalement sous-estimé par de très nombreuses entreprises, le contenu dupliqué interne représente pourtant une part conséquente des problèmes liés au duplicate content. En quoi consiste-t-il ? Il s’agit d’une portion de texte, voire de l’intégralité des éléments d’une page recopiée sur une de ses consœurs, au sein du même site.

Par exemple, dans le cas de fiches produits sur des articles similaires, il peut devenir difficile au bout de centaines de références de varier le contenu proposé. Il en va de même pour des phrases d’accroche représentant au mieux votre activité et difficiles à décliner sous d’autres formes.

En voici un exemple concret, avec une comparaison pour la fiche produit de l’iPhone Xr Noir 64 Go sur Cdiscount. Nous avons prélevé la liste à puces d’informations techniques ainsi que la phrase introduisant le descriptif détaillé. Nous avons ensuite inséré ce contenu dans l’outil de comparaison gratuit antiplagiat de Copyscape, puis avons obtenu un résultat plus que probant.

 

96% du texte vérifié est dupliqué sur une autre fiche produit interne à Cdiscount.

Il ne s’agit pas de l’intégralité du contenu sur chacune de ces pages, indexées sur Google et aux URL différentes. Cependant, cela permet de prendre conscience que sur des produits de la même famille, le duplicate content interne est récurrent.

Autre phénomène pouvant pénaliser votre référencement naturel, serait la duplication de vos balises, notamment les balises title et les balises H1. Celles-ci doivent être uniques pour respecter les bonnes pratiques de la rédaction SEO. Avec un outil gratuit comme Screaming Frog, vous pouvez facilement les repérer afin de les traiter.

 

Sur 500 URLs crawlées, 27,5% des H1 sont dupliquées, soit 105.

 

Le contenu dupliqué externe

Très similaire au concept de contenu dupliqué interne, le duplicate content externe consiste à observer la présence d’une portion de texte ou de son intégralité tirée d’un site A sur une ou plusieurs pages d’un site B.

Dans ce cas de figure, la personne morale ou physique (propriétaire du site) au contenu plagié peut se retourner contre le plagieur afin qu’il retire le duplicate content ou le modifie suffisamment pour qu’il ne soit plus considéré comme une « copie ».

Si nous prenons le même exemple que pour le cas précédent, le contenu de la fiche produit se retrouve aussi dupliqué sur d’autres sites, comme par exemple Carrefour.

Ici, 92% du texte que nous avons voulu vérifier est considéré comme dupliqué sur cette fiche produit Carrefour.

Les différents outils pour check le duplicate content

Malgré des situations difficiles à résoudre, le duplicate content n’en reste pas moins anticipable, notamment car des outils dédiés ont été développés pour faire face à ce fléau. Nous vous incitons fortement, vous ou la personne en charge de votre site, à bien assimiler les règles imposées par Google en matière de contenu dupliqué interne, qu’il nomme « contenu en double ».

Pour le reste, nous vous recommandons de faire appel à ces outils :

  • Plagiarisma : gratuit et brut de conception, il demeure tout de même capable de répondre à vos besoins en y insérant du texte ou une URL à vérifier ;
  • Positeo : gratuit, cet outil est un incontournable se basant sur une URL ou un texte inséré ;
  • Duplicate Content Checker : gratuit, il vous permet d’effectuer une analyse depuis un texte inséré ou une URL, en anglais ou en français ;
  • Quetext : gratuit pour 3 recherches/jour, il propose une version payante abordable et complète, mais limite la vérification à du texte inséré, et non une URL ;
  • Copyscape : gratuit avec une vérification comparative entre deux textes et/ou deux URL, il propose une version payante pratique et complète fonctionnant avec des crédits ;
  • Screaming Frog SEO Spider : gratuit jusqu’à 500 URLs. La version payante permet une analyse très poussée des gros sites, notamment pour vérifier le duplicate content interne des balises ;
  • Plagiarism Checker X : payant et moins abordable que les autres, il n’en reste pas moins un logiciel ultra performant ;
  • KillDuplicate : cet outil payant affiche clairement ses ambitions d’être l’outil numéro 1 du marché en détection, analyse, aide à la décision et suivi d’actions.

Quel est le profil des acteurs faisant usage du duplicate content ?

Contrairement à ce que l’on pourrait imaginer, tous les individus à l’origine du duplicate content ne sont pas guidés par de mauvaises intentions ! Savoir déterminer le profil des personnes à l’origine du contenu dupliqué relève de l’indispensable pour y remédier, tant certains propriétaires de sites web ne sont pas suffisamment au fait des bonnes pratiques.

Vous !

Cela vous étonne ? Pourtant, il est largement possible que vous soyez l’auteur de contenu dupliqué sans même y avoir fait attention. Qu’il s’agisse des meilleures formulations pour décrire les pans de votre activité ou encore des informations communes à plusieurs produits, le duplicate interne est plus que fréquent.

En ce qui concerne le duplicate content externe, il est tout à fait possible que vous partagiez la même source qu’un autre site et en ayez reformulé le contenu d’une manière équivalente, voire identique. Faites donc bien attention à ce que vous rédigez et assurez-vous de respecter certaines règles :

  • Structure des descriptifs produits : gardez une même forme (exemple : titre, introduction de 100 mots, liste à puces d’informations techniques, etc.), tout en variant les termes employés ;
  • Sources des contenus : veillez à multiplier les sources et à vous en détacher au maximum en matière de forme.

Les néophytes ignorant les bonnes pratiques SEO

Comme nous vous le disions précédemment, les personnes qui pratiquent le duplicate content ne sont pas systématiquement des individus mal intentionnés. Une majeure partie des auteurs/blogueurs/propriétaires de site ne sont pas réellement au fait des règles d’usage sur les moteurs de recherche et se retrouvent dans ce genre de situation sans s’en apercevoir.

Parfois, certaines personnes trouvent un contenu qui leur semble intéressant à traiter et dont l’idée serait parfaite pour leur propre site, puis choisissent de le copier directement sur le site. Malgré l’intention louable de « fournir une information », cela n’en reste pas moins contraire au règlement sur Google et aux bonnes pratiques SEO.

Les auteurs de plagiat

Bien plus néfastes sur Internet, les plagieurs ont beaucoup moins de scrupules que les catégories précédentes. Généralement au fait de l’impact de leurs actes, ils cherchent à trouver un maximum d’informations sur d’autres sites web et à les rapatrier sur le leur à travers la même technique : le copier-coller pur et simple.

Il est indispensable pour vous de savoir si l’auteur du plagiat récidive ou non. S’il s’avère qu’il a déjà copié du contenu à multiples reprises, soyez certain que la probabilité qu’il s’agisse d’un individu effectuant du duplicate content en parfaite connaissance de cause est élevée.

Les « plagieurs 2.0 », ou scrapers

À l’heure actuelle, de nouvelles techniques de « copiage » ont été mises en place afin de détourner le plus facilement possible les règles imposées par Google, évitant plus efficacement les pénalités de Panda. Le scraping, ou extraction de contenus en fait partie.

Mais le scraping, c’est quoi exactement ? Effectué de façon totalement automatisée, le harvesting ou scraping est une méthode d’extraction de contenus à l’aide de scripts et autres programmes informatiques. Les informations tirées de la source sont ensuite utilisées sous un autre nom de domaine pour parasiter les positions SEO du site copié.

Difficilement détectable, le scraping reste une des méthodes de negative SEO les plus punies par Google. Une fois que Panda, et par extension le moteur lui-même, a réussi à repérer le scraping, il peut en venir au blacklisting pour en sanctionner le plus sévèrement possible l’auteur. Pour rappel, un site blacklisté par Google est intégralement désindexé du moteur de recherche. Certains profils de webmasters se basent sur cette pratique pour profiter d’un réseau de sites pendant plusieurs mois, en générant du profit le temps que Google se rende compte de la supercherie.

Que faire si vous êtes victime de duplicate content ?

Si vous avez été la cible de contenu dupliqué, il demeure essentiel de procéder par étape et d’aborder la question sereinement avec son auteur, sans la moindre invective. Nous vous recommandons donc de prendre contact avec lui, puis de mettre en place des mesures plus sévères par la suite si nécessaire.

S’adresser avec diplomatie au « copieur »

Commencez par déterminer l’identité de « l’auteur » de l’article recopié à partir de votre contenu. Dès lors, il s’avère judicieux de lui faire part de la gêne qu’il occasionne auprès de vous, mais aussi de la nécessité qu’il supprime ou modifie le texte en question. N’hésitez pas à lui proposer de réduire la portion de texte dupliqué et à l’accompagner d’un lien externe vers votre site.

Dans le cas où votre interlocuteur nierait les faits ou bien se montrerait agressif, restez calme et courtois, tout en lui apportant les preuves issues des outils qui vous ont été donnés plus haut. Si cela ne fonctionne toujours pas, il existe d’autres solutions, un peu plus radicales.

Prendre contact avec Google

Si le « mime » qui vous fait du tort se montre opiniâtre, nous vous conseillons de vous diriger vers Google lui-même. Comment pouvez-vous effectuer les démarches ? Grâce au support de Google pour les demandes légales de suppression de contenu, vous pouvez signaler auprès du moteur la constatation d’un contenu dupliqué sur la base de celui de votre site.

L’entreprise effectuera alors une vérification pour s’assurer que le contenu signalé ne respecte effectivement pas les lois en vigueur et ses conditions d’utilisation. Cette méthode représente un des moyens les plus sûrs pour obtenir ce que vous souhaitez, sans passer par la voie du recours en justice.

Faire appel aux services d’un avocat

Vous rencontrez de trop grandes difficultés à faire supprimer le duplicate content et rentrez dans une situation litigieuse avec son auteur ? Une dernière solution existe : recourir à un avocat pour faire valoir vos droits. Coûteux, ce moyen n’en demeure pas moins efficace.

Vous pourriez, dans le cas où la décision de justice vous donnerait raison, obtenir des dommages et intérêts compensant l’impact économique que le duplicate content a pu avoir sur votre activité.

Désormais, vous possédez toutes les clés essentielles pour vous sortir d’une situation impliquant du contenu dupliqué !

Partager

Nos autres articles

To top