Étude webspam : aidons les chercheurs français !


Dernièrement nos deux consultants SEO (Maxime Coutant et Victor Lerat) participaient à une formation SEO++ (La Masterclass des Frères Peyronnet).Il s’agit d’une formation poussée et destinée à des consultants ayant déjà de bonnes bases en référencement.

Lors de cette formation, les deux compères ont abordé un élément très important du web : le spam ! Qu’est ce que le spam sur le web ? Comment le détecter ? Quelles sont les problématiques du spam pour Google et les autres moteurs de recherche ? Des questions très intéressantes à se poser et qui méritent des réponses précises.

Webspam

Justement qu’est ce que le spam sur le web ?

Le spam sur le web (ou webspam) n’est pas forcément très simple à définir. En anglais, on définit le spam par une réplique toute bête mais pourtant très juste : « Web spam, you know it when you see it »

En français on peut traduire cette phrase par : « Le Spam, quand tu le vois, c’est mal ! »

Le jugement humain est donc très important pour définir si un site ou une page est du spam ou si c’est un contenu dit « normal ». Pour ce faire, il faut créer un dataset : une base de données avec des pages tirées au hasard parmi des milliers d’autres pages. Des humains (le plus possible) pourront alors déterminer si la page X est du spam ou non et ainsi de suite. Plus le dataset est important et plus les humains à donner leur avis sont nombreux plus l’étude sera précise.

En 2004, une première étude avait été menée aux USA par l’intermédiaire d’Axelandros Ntoulas. L’étude avait alors été réalisée sur un dataset comprenant 18000 pages.

Ces études permettent ensuite d’en déduire les caractéristiques détectables par des robots sur des pages considérées comme du spam sur le web. Parmi ces critères, nous pouvons citer :

  • Les extensions de nom de domaine (ex : 70% des .biz sont considérées comme du spam contre 5% pour le .org)
  • La langue utilisée pour rédiger les contenus (les français et les allemands sont les plus gros spammeurs d’après l’étude d’Axelandros Ntoulas)
  • Nombre de mots dans la balise <title>
  • Nombre de mots dans le titre de la page (<h1>)
  • Nombre de séparateur dans un nom de domaine (ex : les extensions avec plus de 3 tirets sont souvent considérées comme du spam)
  • Rapport entre le poids de la page et le poids de la page compressées (un site plus élaborée graphiquement et donc plus lourd est souvent la preuve d’un site propre)

Une nouvelle étude du « webspam » menée par des français !

Sylvain et Guillaume Peyronnet ont lancé avec d’autres chercheurs, une nouvelle étude sur le spam français. On retrouve dans l’équipe des professionnel du domaine comme Jean Creusefond, Jérôme Darbon, Thomas Largillier ou encore Laurent Bourrelly (Rockstar SEO pour les intimes).

L’objectif :

Déterminer les critères constitutifs du spam français, des contenus de haute qualité et des contenus de faible qualité.

La méthodologie :

  1. Crawler des millions de pages,
  2. Tirer au hasard des pages parmi ces millions de pages récupérées
  3. Demander à des humains d’indiquer si c’est du spam ou non (chaque page devra être notée de 3 à 5 fois)
  4. Analyser les données (l’étape la plus coûteuse et la plus délicate)
  5. Créer un classifieur avec les données récoltées
  6. Tester le classifieur

L’étude est déjà lancé mais ils ont encore besoin de vous :

Les deux premières étapes ont été laborieuses mais nos chercheurs français ont tout de même finit par réunir des milliers de pages à noter. C’est maintenant que la communauté doit se bouger et venir en aide à nos scientifiques français.

Pour cela, vous devez vous inscrire à l’étude webspam en suivant ce lien !

Une fois validé, vous pourrez noter les pages issus du dataset en français. Une page vous sera proposée et vous aurez alors trois choix possibles :

  • Spam
  • Contenu de faible qualité
  • Contenu de haute qualité

Le spam est avant tout un contenu qui n’est pas censée apparaître dans les résultats de recherche de Google. La barrière est plus fine entre un contenu de haute qualité et de faible qualité. Chaque humain ayant une perception différente des éléments.

étude webspam

Plus d’info sur le webspam : http://www.peyronnet.eu/blog/quest-ce-que-le-spam-sur-le-web/

Merci à tous ceux qui joueront le jeu !