Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

dimanche, décembre 11, 2005

Moteurs: Ca diverge dur!

Vous avez sans doute comme moi comparé occasionnellement les résultats que retournent différents moteurs... Ces résultats se ressemblent-ils? Divergent-ils complètement? Gagne-t-on quelque chose à interroger plusieurs moteurs? Cela m'intriguait depuis quelque temps: je ne connais pas d'étude récente qui analyse systématiquement les résultats retournés par les moteurs francophones (vous me détromperez peut-être). Alors, comme on n'est jamais si bien servi que par soi-même, j'ai entrepris une petite évaluation avec l'aide de mes 14 étudiants de la licence MASHS à Aix. Chacun a choisi un thème (Divertissement, Histoire, Politique, etc.), et m'a proposé cinq requêtes à l'intérieur de ce thème, soit un total de 70 requêtes en tout. Je les ai lancées cet après-midi sur six moteurs avec les mêmes réglages (pages francophones, site parental activé), et j'ai calculé le nombre d'URL communes aux différents moteurs sur la première page de 10 résultats (soit 4200 URL en tout). Le détail est étonnant:

% communGoogleYahooMSNExaleadDirVoila
Google--25.118.912.16.47.0
Yahoo25.1--16.611.96.76.7
MSN18.916.6--10.15.75.7
Exalead12.111.910.1--5.96.4
Dir6.46.75.75.9--2.9
Voila7.06.75.76.42.9--

Le tableau ci-dessus montre que, quel que soit le couple de moteurs considéré, bien peu de résultats sont identiques sur la première page. La meilleure correspondance est entre Yahoo et Google, qui partagent en moyenne un quart des résultats, ce qui est tout de même peu. Les résultats sont bien plus faibles encore pour les autres moteurs. Je m'attendais à des divergences, mais je dois dire que j'ai été assez surpris qu'elles soient aussi massives!

On peut représenter la similarité entre moteurs sous forme d'arbre, à l'aide d'une technique qui s'appelle classification hiérarchique ascendante -- je n'entre pas dans les détails pour ne pas plomber l'audimat ;-) L'idée générale est simple à comprendre: deux moteurs sont d'autant plus distants dans l'arbre (ou "dendrogramme") qu'ils ont moins de résultats en commun.




Je ne sais pas ce que vous en pensez, mais ce diagramme reflète bien mes intuitions: Yahoo et Google sont les plus proches (encore qu'ils diffèrent à 75%!) ; MSN n'est pas trop loin du tandem. Les moteurs français sont plus loin, avec Voila très distant de tous les autres. Ceci ne dit rien sur la qualité, bien sûr: on peut être éloigné des autres et être le meilleur (mais dans le cas de Voila, honnêtement, j'en doute: on sent clairement que le moteur est laissé plus ou moins à l'abandon...).

Reste à savoir quel est le moteur le plus pertinent, mais ça c'est une autre histoire. On va y travailler avec mes étudiants, et nous aurons l'occasion d'en reparler...

16 Commentaires:

Anonymous Anonyme a écrit...

La technique utilisée pour les représenter sous forme d'arbre se rapproche-t-elle de celle utilisée pour faire des cladogrammes entre différentes espèce en biologie? Merci

11 décembre, 2005 20:09  
Blogger Jean Véronis a écrit...

Alphoenix> Presque... Je crois que ce type de méthode se rapproche plus des méthodes dites "phénétiques" basées sur un degré de similarité entre séquences génétiques et qui produisent justement des dendrogrammes ou phénogrammes --mais je ne suis pas spécialiste! Y a-t-il des biologistes dans la salle?

11 décembre, 2005 20:22  
Anonymous Anonyme a écrit...

J'ai essayé avec mon titre de blog et on voit bien que certains moteur de recherches ont arrêté leur travail il y a un certain temps, où alors elle se limitent à des liens non-commerciaux.Je n'en sait rien toujours est-il que les meilleurs sites, ceux qui me renvoient à mon blog crée il y a moins d'un mois sont: Google, Yahoo, Altavista et AskJeeves ont répondu à ma requète. Je n'ai pas tout essayé, contrairement à L. Ruquier. Mais il faut dire que dir.com marche également et que sa fonction de http://*recherche*.dir.com est intéressante.

11 décembre, 2005 20:46  
Blogger tobi a écrit...

Yahoo et MSN utilisent tous les deux les données Inktomi ( propriete de Yahoo ).
Ce qui fait la difference, ce sont les regles de scorage, vaste sujet !

11 décembre, 2005 20:50  
Anonymous Anonyme a écrit...

A tout hasard, voilà un site permettant de comparer les premiers résultats de recherche entre Yahoo et Google : http://www.langreiter.com/exec/yahoo-vs-google.html
Je trouve la représentation graphique des résultats intéressante.

11 décembre, 2005 22:56  
Anonymous Anonyme a écrit...

Bonjour,
Je peux me tromper, mais je pense que MSN n'utilise plus Inktomi depuis quelque temps. En fait, le moteur utilisé sur le site français de MSN est une déclinaison (laquelle ?, c'est ce que j'aimerais découvrir) de la version américaine d'un "nouveau" moteur "maison".
(Thea)

12 décembre, 2005 00:01  
Anonymous Anonyme a écrit...

Bonjour,

Je confirme ce que Théa écrit: MSN a maintenant son propre moteur, développé en interne et lancé il y a quelques mois (avec entre autres l'accès aux articles de l'encyclopédie Encarta).
Et bravo pour cette étude passionnante, Jean! Je me réjouis de lire la suite, sur la pertinence des réponses...

Thierry Fontenelle [MSFT]

12 décembre, 2005 06:13  
Blogger Jean Véronis a écrit...

Phlippe> Merci de citer le lien vers cet outil qui compare visuelment Google et Yahoo -- et qui confirme grosso modo les proporitions que j'indique. Seul inconviénient, il ne permet pas de restreindre la recherc au français...

12 décembre, 2005 07:33  
Anonymous Anonyme a écrit...

Voici deux liens vers des pages où j'ai orienté vers des outils de comparaison de résultats entre moteurs qui montre que (par exemple) pour 10316 recherches qui ont ramené 336232 résultats uniques, seulement 3% étaient communs aux trois moteurs, 12% communs à deux d’entre eux et 85% spécifiques à l’un des moteurs.
http://www.activeille.net/index.php/archives/2005/05/10/comparaison-des-resultats-de-recherche-sur-differents-moteurs/
ou http://minilien.com/?zr12pgRQNr
http://www.activeille.net/index.php/archives/2005/05/18/comparaison-des-resultats-de-recherche-sur-differents-moteurs-2/
ou http://tinyurl.com/b2x3t

12 décembre, 2005 08:28  
Blogger J2J2 a écrit...

En voyant les résultats de ce bilet, mon intuition première fut que ces divergences provenaient simplement d'une différence de scoring des moteurs. Le fait de ne retenir que les 10 premiers résultats me semblant assez limitatif je supposais que cela laissait beaucoup de place à de grandes divergences de résultats à cause des algorithmes utilisés.
Or, l'outil sité par Philippe (que je ne connaissais pas et qui est une très bonne approche visuelle), en nous montrant les 100 premiers résultats nous suggère que les divergences des moteurs sont plus de l'ordre du contenu de l'index que de la méthode de scoring. Il est également intéressant de remarquer que très souvent les trois ou quatre premiers résultats sont très proches mais qu'ensuite les divergences sont de plus en plus grandes.
A suivre.

12 décembre, 2005 12:06  
Anonymous Anonyme a écrit...

Bonjour

Très intéressant comme première analyse! Avez-vous regardé (j'imagine que oui) quel taux d'URL sont présents dans TOUS les moteurs? Déjà y en a-t-il? Si oui, ceux ci représentent assurément les résultats les plus pertinents. D'autre part sommes nous capables de quantifier la performance d'un moteur par sa similitude aux autres moteurs? Je fais un parallèle un peu grossier: vous qui êtes enseignant, donnez une recherche bibliographique à faire à 6 étudiants. Quelle est la meilleure recherche? Celle de l'étudiant qui a le plus de références communes aux autres? Diversité ne fait-elle pas richesse? Pardonnez mon esprit tordu et encore merci pour votre blog!

12 décembre, 2005 15:42  
Blogger Nicolas a écrit...

Dogpile permet de comparer 6 moteurs de recherches et affichent les résultats des 6 moteurs en colonne, en surlignant les résultats identiques.

12 décembre, 2005 15:42  
Anonymous Anonyme a écrit...

Je me demande si ce résultat n'est pas après tout normal. Il serait simplement la manifestation des lois bibliométriques. Les requêtes se concentrent très forts sur quelques items très peu nombreux et se dispersent sur un très grand nombre. Comme les résultats sont classés par rapport aux requêtes, il serait logique que l'on n'en retrouve que quelques uns en commun, ensuite cela devient très vite aléatoire.

12 décembre, 2005 23:52  
Blogger Jean Véronis a écrit...

Jérôme> Ca me semble bien difficile de savoir si les divergences sont dues au scoring ou au contenu de l'index. Après tout, l'outil yahoo/google ne donne que les 100 premiers résultats. C'est mieux que 10, mais ça ne nous dit pas si les mêmes URL ne figurent pas plus loin dans l'index...

13 décembre, 2005 21:58  
Anonymous Anonyme a écrit...

Je voulais juste signaler un petit travail que j'ai fais suite à ce billet. J'ai voulu aussi comparer les résultats de 5 moteurs. Et notamment leur ordre d'apparition, le classement des résultats. Par contre je n'ai certainement pas le niveau de Jean Véronis, tout a été développé sous Excel, ce n'est pas très "propre" comme programmation, mais si ça intéresse quelqu'un d'essayer des requêtes ou tester par lui même. Le fichier est disponible avec un peu plus d'explication a cette adresse :
http://veilleauto.jot.com/exp%C3%A9rience#ComparMoteur

15 janvier, 2006 17:04  
Blogger Jean Véronis a écrit...

Modo> Bravo! Les résultats sont du même ordre: faible recouvrement, sauf Yahoo/Altavista mais ça s'explique: c'est la même base de données (Overture).

15 janvier, 2006 18:59  

Enregistrer un commentaire