Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, août 23, 2005

Yahoo: Pages manquantes? (4)



NCSA a publié un démenti assez cinglant sur la comparaison Google/Yahoo qui avait fait si grand bruit il y a quelques jours [version originale]. Hier, la page était remplacée par l'avertissement suivant:
The following study was completed by two of Professor Vernon Burton's students at the University of Illinois. Though one of the students previously worked with Professor Burton at the National Center for Supercomputing Applications (NCSA), the study was done outside the scope of any NCSA core projects. When first published online, staff at the NCSA noted several issues with the study, and some revisions have been made to the document to reflect several of these concerns. Changes are detailed at the bottom of this page.

Please note again that this study is not an NCSA publication and was not conducted as part of any NCSA project or under the supervision of NCSA.

A verification study is currently in progress that addresses the presence of "wordlists" and "dictionaries" in the search results that many rightly point out could count as a source of bias. The new study filters out any dictionary or wordlist results. Preliminary results (from 7000 test queries) indicates that the results of this verification study confirms the conclusions of this study, but final results are still forthcoming.
Aujourd'hui, une nouvelle version révisée a été mise en ligne. Il est assez intérressant de constater que le Prof. Vernon Burton a disparu en tant que co-auteur, laissant ses deux étudiants seuls sur le champ de bataille. Les affiliations au NCSA ont aussi été enlevées.

Dans cette nouvelle étude, les auteurs tirent toujours deux mots au sort dans le dictionnaire ispell mais excluent un troisième mot aléatoire de la requête (à l'aide de l'opérateur d'exclusion -), dans l'espoir d'éliminer les listes et le spam des résultats. Par exemple, ils utilisent la requête switchers trophoblast -agnus. Ils trouvent ainsi que Google retourne toujours plus de résultats (un peu moins que précédemment).

Malheureusement cette nouvelle stratégie ne fait pas disparaître le bais. Des listes de mots et du spam sont toujours présents dans les résultats, comme on peut le vérifier aisément sur n'importe laquelle de leur requêtes. Voici par exemple les résultats que me donne Google ce matin pour switchers trophoblast -agnus: tous les documents sauf un sont du déchet.

Yahoo ne renvoie rien sur la même requête, et rate donc le seul document pertinent renvoyé par Google [celui-ci]. Il s'avère que ce document est un long fichier pdf, qui est pourtant dans la base de données de Yahoo [voir ici]. S'il n'est pas retrouvé c'est parce que Yahoo indexe les longs documents de façon beaucoup moins profonde que Google (voir discussion dans mon billet précédent). Le fait que de tels documents ne soient pas retournés sur certaines requêtes ne signifie pas que Yahoo mente sur le nombre de documents indexés (ce qui est l'objet du débat). Les auteurs ne prennent pas en compte non plus la différence dans les stratégies de filtrage (voir ici).

En conclusion, cette nouvelle étude est tout aussi faussée que la première. Elle continue à compter de nombreux documents sans intérêt et ne se pose même pas la question des autres biais qui ont été signalés.

Je trouve assez étonnant qu'une étude aussi défaillante puisse faire ainsi le tour de la blogosphère, et être citée partout avec autant d'excitation, même par le respectable New York Times. Heureusement un ou deux bloggeurs vigilants étaient sur le pont...

Libellés :


8 Commentaires:

Anonymous Anonyme a écrit...

Yahoo semble vous remercier...!
Il est amusant de remarquer que lorsqu'on tape NCSA dans yahoo (francophone) vous êtes en 4e position alors que dans Google (francophone) vous n'êtes que 48e...

Un mauvais point toutefois pour Yahoo qui retourne le résumé suivant :
"... extremely detailed study carried out by researchers at NCSA, which I wrote about here, seems to provide grist ... of my last post, the NCSA authors assume that search engines perform ..."
alors que la rerche porte sur les pages francophones...
Google a bien extrait un passage en français.

23 août, 2005 10:53  
Blogger Jean Véronis a écrit...

Marc> Et 14è dans une recherche "tout le web", ce qui est assez extraordinaire vu qu'il y a plus de 5 millions de résultats! Il va falloir que je me penche sur ça, merci!

Le problème du résumé c'est que ma page principale aixtal.blogspot.com contient les 20 dernier billets, méli-mélo de français et d'anglais. Yahoo doit attraper bêtement la première occurence de la chaîne...

23 août, 2005 11:03  
Anonymous Anonyme a écrit...

Il semble que mon précédent commentaire sur les pages manquantes pour le mot "azoique" ait fait mouche ;-)

Certes, les précisions de Jean, notamment sur l'indexation partielle des fichiers PDF, et sur le filtrages des résultats, expliquent une partie du mystère...
Mais je voudrais son/votre avis pour une autre devinette, toujours pour des pages manquantes sur Yahoo...

Afin d'éviter, autant que faire se peut, de retrouver des fichiers PDF et des "listes de mots" polluantes, j'ai pris cette fois-ci l'exemple de recherche de "backlinks" – d'autant que cette fonctionnalité est l'un des points forts de Yahoo! vs Google...

Si l'on recherche sur Yahoo! des pages pointant vers le très sérieux et plutôt discret site RIME – Ressources sur Internet en management et économie –, avec la requête "link:http://www.ccip.fr/rime", on obtient "2030 résultats". Là encore, Yahoo! s'arrête dans un premier temps à l'affichage de 273 résultats et à 508 résultats si l'on a cliqué sur "relancer la recherche en y incluant les documents occultés".

Pourtant, pour un site de ce type – qui ne possède pas d'adresse "en propre" –, il ne devrait pas y avoir beaucoup de spam... y-a-til filtrage et à partir de quoi ? y-a-t-il "bidonnage des comptes" ???

L'enquête piétine... Mais Jean va sûrement la relancer ;-)

23 août, 2005 19:00  
Blogger Jean Véronis a écrit...

Béatrice> Il n'est pas sûr que le filtrage post-recherche ne concerne que le spam.

Il y a quand-même un peu de spam ou de pages bizzaroïdes:
inurl:www.ccip.fr inurl:rime

Mais ça ne suffit sans doute pas à expliquer la différence. Je ne sais pas exactement ce que fait Yahoo, mais je constate que de très nombreux liens qui pointent sur http://www.ccip.fr/rime proviennent du site www.ccip.fr/rime lui-même ou de sites apparentés comme www.rime.ccip.fr ou www2.ccip.fr, www3.ccip.fr, www4.ccip.fr, qui contiennent des centaines de fiches générées dynamiquement par script asp et qui toutes contiennent ce lien. Exemple:

http://www.rime.ccip.fr/detail_print.asp?fiche=872

Peut-être que ces pages entrent dans l'équation?

24 août, 2005 10:54  
Anonymous Anonyme a écrit...

Les bugs du correcteur orthographique de Google :
http://www.au-poil.com/archive/2005/08/25/afghanes-voilees.html#comments

25 août, 2005 23:47  
Blogger Jean Véronis a écrit...

Wawa> Excellent... le contraste est saisissant, quand on voit ce que retourne la proposition Google! Ceci étant, j'ai quand même de plus en plus de mal à comprendre l'algorithme de correction de Google...

26 août, 2005 09:20  
Anonymous Anonyme a écrit...

Tout le monde étant interessé par la question, j'ai fait aussi mon petit test ; avec la chaine la plus pertinente possible (pour moi ;>)) : mon pseudo = pilou guy.
Il date de la campagne du référendum (étonnant, non !) et ne traine que sur 4 sites, 2 étant sur le même domaine.
Yahoo n'en trouve qu'un (le principal), Google trois. Le quatrième ne comportait pas la chaine complète, mais la signature Guy pointait sur l'email (qui la contient), que les spammeurs ont bien trouvé.
L'analyse détaillée des résultats renvoyés est passionante, surtout la comparaison de l'ensemble des pages du site commun aux deux moteurs. Leur adresse est du type :
forums.telerama.fr/forums/messages.asp?forum=147&msgID=220224&parentmsgID=0&threadID=64303&forumid=1453
Google en annonce 22 qu'il affiche. Yahoo en annonce 52 et n'en affiche que 20 ; sauf que le même message est sorti plus de 10 fois!

Un autre test avec http://aixtal.blogspot.com ; vous connaissez ? :>)))
Google donne le titre et propose des services : page en cache, contenant les blogs d'août ; sites qui référencent ou parlent d'aixtal.
Yahoo annonce 1317 pages ! Je suis trop paresseux pour en regarder le détail ...
En emmerdeur notoire, j'ais insisté, cherchant langage http://aixtal.blogspot.com
Pas déçu !
Google annonce et affiche 51 pages : une pour chaque titre de blog depuis décembre 2004 (me semble-t-il, a visto de naz) ; à toi Jean de valider la pertinence du chiffre.
Yahoo n'en annonce plus qu'UNE !!! Qu'il n'a pas en cache, et me semble définie comme lien RSS.

Alors, Aixtal, c'est 1, 51 ou des centaines de pages ?
Et c'est quoi UNE page ?
Car l'important, en statistique, ce n'est pas de compter (çà, on sait le faire dés le CP), mais de maitriser le LANGAGE de définition des objets et catégories. Tu devrais y parvenir ;>)))

Dans le cas des forums du genre de Télérama, chaque message et chaque dicussion sont des pages. Comme il existe plusieurs chemins d'accés, le nombre de titres apparents est la combinaison des identifiants valides fournis au script ; l'identifiant du message dépends de sa position dans la base, et donc change à chaque réorganisation.
Google semble avoir un moyen de reconaitre les contenus (sans doute fabrique-t-il une clé), malgrés les modifications apparente de titre ; pas Yahoo, d'où les multiples doublons.

Le nombre de pages étant une chimère, comment peut-on comparer les deux moteurs ?
L'indice de complètude me parait la meilleure piste. Pour "pilou guy" çà donnait 0.75 à Google contre 0.25 à Yahoo si l'on compte le nombre de sites ; mais encore plus médiocre et désequilibré si l'on compte le nombre de textes, mais ne sachant plus combien de fois je m'étais exprimé, l'indice absolu n'est pas non plus calculable.

Plutot que des mots aléatoires, des mots peu usités sont efficaces. Ainsi "epoutir" donne 17 échos chez Google et 32 chez Yahoo, dont 9 de spam chez chacun ( et vols-promo.net, çà devrait se voir!). Le fait que ce soit surtout des dictionnaires et des listes de mots est trés pertinent pour des joueurs de scrabble et des amateurs de mots croisés.
Racahout m'a ébahi : il tient une bonne place dans Madame Bovary !

Tu tiens là de quoi occuper tes étudiants ;>)

La façon de passer la requète la plus efficace pour n'avoir que quelques échos pertinents est aussi un thème de recherche utile ; et à la mode : dans le roman-feuilleton de Libé, il s'agit de trouver UN Morales au Mexique !

26 août, 2005 18:10  
Anonymous Anonyme a écrit...

Tout à fait par hasard, une requête spécifique me permet de mener une expérience tout à fait discriminante. La phrase : "l'hébergeur est dans mon salon" ne se trouve qu'en deux occurrences : sur la page d'accueil index.html de mon site statique, et sur le gabarit template.php de mon blog sous Dotclear. Google.fr, search.yahoo.fr et search.msn.fr retournent respectivement 2 résultats sur 119, 3 sur 365, et 4 sur 4 ; en demandant à MSN d'afficher plus de résultats, il en trouve 158.
On comprend facilement que, si l'occurrence du fichier index.html est unique, celle de template.php est miraculeusement multipliée suivant des modalités propres à chaque moteur : si j'en crois Dotclear, le blog comporte à ce jour 46 billets. Il semble que, d'une part, l'existence d'une version anglaise virtuelle suffise à doubler ce total et, de l'autre, que les opérations d'indexations successives se superposent, un même billet étant référencé séparément à deux dates différentes.
Moralité : les moteurs de recherches ne s'en sortent pas avec les pages dynamiques, ce qui n'est pas nouveau, et cette opération permet de les classer par ordre de pertinence, avec Google en 1, Yahoo en 2, et MSN en 3.

08 septembre, 2005 15:42  

Enregistrer un commentaire