Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

dimanche, juillet 02, 2006

Moteurs : Folles duplications (1)

Vous avez sans doute remarqué que je ne parle plus guère des comptes de Google. Nous avons vu au fil des mois que les nombres de résultats retournés étaient dans bien des cas fantaisistes [1], et que la notion même de nombre de pages indexées commençait à s’obscurcir avec les métamorphoses récentes du Web (spam, duplications, pages dynamiques, etc.) [2, 3, 4]. Google ne mentionne d’ailleurs plus de taille d’index en page d’accueil [5]. Néanmoins, le moteur, comme ses concurrents, continue à afficher le nombre de pages indexées pour chaque requête, et l’on peut en tirer des enseignements intéressants sur les stratégies des moteurs.



A titre d’exemple, je vais vous relater une petite expérience que j’ai faite récemment, et que je trouve pleine d’enseignements. Vous vous souvenez peut-être que j’ai salué il y a quelque temps la naissance du mot ségolisme. Mon billet date du 1er juin, et je pense que le mot est apparu sur le Web dans le courant du mois de mai. Or, au 1er juin, Google retournait déjà 24000 résultats (comme cela a été remarqué dans un commentaire par Vicnent). La progression semblait un peu rapide pour un mot qui venait de naître, et je doutais, bien évidemment, qu’elle reflétât la progression réelle de son utilisation par les internautes.

Vous savez sans doute que Google affiche un certain nombre de documents sur le premier écran de résultats, mais que lorsqu’on avance dans les écrans de résultats successifs (une bonne idée est de régler le nombre de résultat par écran sur 100 dans les préférences), il arrive qu’on ait bien moins de résultats qu’annoncé. Ainsi, pour ségolisme, Google ne retournait au 1er juin que 200 résultats, annonçant sur le dernier écran :
Pour limiter les résultats aux pages les plus pertinentes (total : 200), Google a ignoré certaines pages à contenu similaire. Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées.
J’avais mentionné ce comportement lors de la fameuse bataille Google-Yahoo, l’été dernier. Les moteurs ont des stratégies de plus en plus élaborées de « dédoublonnage », qui permettent d’éliminer les duplications ou quasi-duplications dans la présentation des résultats, et c’est tout à fait souhaitable du point de vue de l’utilisateur ! Néanmoins, la proportion de duplications supposées est extrêmement élevée dans certains cas, comme dans celui de ségolisme. Au 1er juin, la proportion de « pages similaires » selon Google était de 99,2% pour ce mot (23800 / 24000).

J’ai noté chaque jour du mois de juin la façon dont les deux nombres évoluaient (ne vous inquiétez pas, j’ai des outils qui font ça automatiquement !). Les graphiques ci-dessous donnent respectivement l’évolution des nombres de résultats bruts et dédoublonnés :


Avec pages similaires

Sans pages similaires

On voit que le nombre de documents indexés (si l’on veut bien croire les chiffres de Google, bien entendu) est monté jusqu’à 322 000 le 11 juin, pour redescendre ensuite à 52 200 le 1er juillet, avec plusieurs oscillations. Le nombre de résultats dédoublonnés est resté, lui, inférieur à 500 (maximum de 469 le 23 juin). La proportion de « pages similaires » est montée à 99,9% autour du 10 juin, ce qui est tout de même étonnant.

Que peuvent donc bien être toutes ces pages considérées comme similaires ? Un examen détaillé montre qu’il s’agit principalement des versions RSS d’une même page, de pages d’archives (il est courant qu’un blog présente le même billet en version isolée et en archive hebdomadaire ou mensuelle), de versions avec et sans commentaires de billets, et de liens de type « trackback » ou « derniers commentaires postés », qui sont eux aussi communs sur les blogs. Ainsi, le mot ségolisme a été repris sur un billet sur la plateforme Agoravox, et pendant un temps, les milliers de billets qu’elle contient ont tous, automatiquement, comporté le mot ségolisme, sans compter les commentaires qui font tous l’objet d’une page dynamique séparée (« signaler un abus »). Au 1er juillet, le seul site Agoravox est responsable de 15 200 résultats sur les 52 200 que retourne Google. Une recherche sur le site lui-même montre que seuls 392 documents contiennent ségolisme et que la plupart sont des commentaires qui ne contiennent ce mot que dans le titre : un seul billet l'a utilisé, le billet original !

Chez Yahoo, la situation est analogue, bien que moins exacerbée. Les deux diagrammes ci-dessous correspondent à nouveau, respectivement, aux résultats avec et sans « pages similaires » :


Avec pages similaires

Sans pages similaires

Yahoo a atteint un maximum de 15 900 pages indexées au 11 juin, donc près de 20 fois moins que Google. Sans « pages similaires », le compte maximum de 474 a été atteint le 17 juin. Il est intéressant de noter :
  • qu’une fois dédoublonnés, les comptes de Google et de Yahoo sont à peu près du même ordre de grandeur;
  • que les courbes de Yahoo sont beaucoup plus stables que celles de Google.
Le deuxième point m’incite une fois de plus, à préférer l’utilisation de Yahoo à celle de Google dès que des analyses quantitatives sont en jeu.

Le nombre de pages retournées sans « pages similaires » semble être une source intéressante de données pour des études quantitatives, apparemment plus proche du nombre de documents véritablement originaux. Petit inconvénient, les moteurs ne donnent pas directement ce résultat sur le premier écran, ou dans leurs API, et il faut des automates plus compliqués pour le recueillir, avec un temps de réponse plus important. De plus, lorsque le nombre « sans pages similaires » dépasse 1000 (le nombre maximal de pages retournées par Google et Yahoo), il n’est simplement pas accessible.

Cet exemple montre en tous cas de façon éclatante combien le problème des duplications, et des nouvelles fonctionnalités du Web, liées au blogs et au forums, en particulier (archives, trackbacks, commentaires, etc.) peut avoir un impact dramatique sur les comptes fournis par les moteurs, puisqu'il peut y avoir pratiquement un facteur 1000 entre le nombre de documents originaux et le nombre de résultats retourné. Tous ceux qui utilisent les moteurs (Google en particulier) pour des études quantitivatives devraient avoir ces phénomènes présents à l’esprit. Les conclusions tirées des chiffres bruts peuvent être totalement aberrantes.


Lire la suite


12 Commentaires:

Anonymous Anonyme a écrit...

En effet, c'est un des pires méfaits de "l'optimisation"... Ces systèmes de blogs ont été inventés dans le seul but de faire des BL dits "de qualité" (avec un fort %age de mots-clés), et malheureusement, ça engendre des problèmes...

Mais ne vous inquiétez pas, d'après ce qu'on voit actuellement avec Googlebot et Yahoo!, ces deux moteurs changent radicalement leur technique d'indexation :)
Ca promet des surprises.

02 juillet, 2006 19:34  
Anonymous Anonyme a écrit...

Il faut compter aussi avec la mise en abyme. Une page de requête d'un autre moteur peut se trouver référencée avec ce mot dans le descriptif d'une page Web. Comme il existe des dizaines de milliers de moteurs, il se peut que le mot soit ainsi repris alors que la requête portait sur un mot différent. On conjugue ça et puis les pages d'archives, de commentaires des blogues et on obtient des associations de mots un peu étranges, du type métaphore surréaliste (l'alliance de la table de dissection et de la machine à coudre), cela alors que les mots se trouvent dans des billets différents mais archivés sur lee mêmes pages.

03 juillet, 2006 09:35  
Blogger Vicnent a écrit...

euh, des dizaines de milliers de moteur ?

03 juillet, 2006 18:51  
Anonymous Anonyme a écrit...

A suivre!

http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=%22parti+pirate%22&mot2=&mot3=&mot4=&mot5=&mot6=&affichage=absolu&Soumettre=Soumettre

03 juillet, 2006 21:56  
Anonymous Anonyme a écrit...

Ben oui... Des dizaines de milliers de moteurs. Moteurs spécialisés dans un domaine d'activité, une région, un centre d'intérêt plutôt pointu, un support technique, moteurs dans toutes les langues non européennes ou même certaines langues minoritaires. Je ne confonds pas avec des annuaires.

03 juillet, 2006 22:38  
Blogger TOMHTML a écrit...

J'espère que vous utilisez toujours le le même data center. Parce que de l'un à l'autre, au même moment, le nombre de résultats peut être multiplié par 1000...


bonne étude en tout cas ;)

04 juillet, 2006 13:04  
Anonymous Anonyme a écrit...

Du Ségolisme en veux-tu, en voilà !

Le Monde

Attention les stats Google ...

04 juillet, 2006 16:38  
Anonymous Anonyme a écrit...

Dans Aixtal, Google trouve 290 pages traitant du 'langage', dont 84 de pertinentes.
C'est du boycott ?

Il ne me souviens pas qu'il y ait un site découvert grace à un moteur sur lequel j'ais eu envie de revenir.

04 juillet, 2006 19:10  
Blogger Jean Véronis a écrit...

Tomhtml> Oui, bien sûr (merci!).

04 juillet, 2006 19:16  
Blogger Jean Véronis a écrit...

Christophe> Merci pour le lien! oui, ça devrait gonfler les stats (encore que le Monde n'es pas forcément beaucop repris)

04 juillet, 2006 19:17  
Blogger Jean Véronis a écrit...

Pilou> Les chiffres fluctuent un peu: à l'instant il m'en donne 328. dont 86 pertinentes. Pourquoi 86, effectivement? J'ai écrit 323 billets... Les algorithmes de Google sont étranges.

04 juillet, 2006 19:23  
Anonymous Anonyme a écrit...

Le nombre des résultats sur Google (et parfois leur variation) m'ont amené à exprimer ma colère (le mot est fort, peut-être) face à l'emploi répété des résultats de Google.

C'est sur http://www.roumazeilles.net/news/fr/wordpress/2006/08/19/le-meme-des-1-000-000-pages-sur-google/

23 août, 2006 01:20  

Enregistrer un commentaire