Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, décembre 21, 2005

Moteurs: Liens d'affection

Je mentionnais l'autre jour l'affection particulière que semblent avoir Google et Yahoo pour Amazon. Y a-t-il d'autres "amitiés" de ce type? Pour en avoir le coeur net, j'ai repris la petite étude que je suis en train de mener avec mes étudiants aixois, à l'aide de 70 requêtes lancées sur six moteurs (voir épisodes précédents: 1, 2, 3, 4). Sur les 4200 résultats analysés, seuls trois sites de vente en ligne émergent (j'ai fixé comme limite qu'ils apparaissent au moins 10 fois dans un des moteurs): Amazon, Ebay et PriceMinister (dans cet ordre). Voici les résultats sous forme de diagramme "radar":



On voit que Google et Yahoo adorent Amazon, tandis que Voilà préfère Ebay et PriceMinister. Les autres moteurs ne semblent pas avoir d'affinités particulières avec les sites marchands. Je le comprends pour Dir et Exalead: trop petits pour attirer des partenariats, mais cela me surprend pour MSN!

Du côté des sites d'information encyclopédique ou pratique, quatre champions se dégagent (toujours le même critère: ne sont retenus que les sites retournés au moins 10 fois par un moteur): Wikipedia, Yahoo (les différents services: actualités, horoscope, etc.), AlloCiné et Doctissimo (il y avait une rubrique cinéma et une rubrique santé dans les requêtes).


Yahoo (le moteur) adooore Wikipedia! (ce n'est pas étonnant). L'encyclopédie libre est aussi présente, mais moins, sur Google, Exalead et Dir. MSN n'y fait pas trop appel (pas étonnant non plus), et Voila s'en fout: pas une seule page de Wikipedia retournée [cette censure remonte au temps où Voilà utilisait l'encyclopédie Hachette, mais ce partenariat est terminé... --voir témoignage de David dans les commentaires]. Quand je disais que ce moteur part à la dérive... Par contre, il fait très fort sur le cinéma: on voit qu'AlloCiné lui plaît franchement (ah oui, AlloCiné, c'est une société commerciale, qui a quelques liens avec Orange, qui lui-même..., etc.). Quant à Doctissimo, eh bien, on dirait qu'il plaît à MSN.

En résumé, selon ce que vous cherchez, il faut bien choisir votre moteur! Etudiez avec Yahoo, soignez-vous avec MSN, achetez vos DVD et allez au ciné grâce à Voilà... Ou alors, prenez Google (ou, bien sûr, un de ses clones); c'est peut-être pour cela que 85% des internautes français l'utilisent: il est bon (ou pas trop mauvais) un peu partout, et il ne nous agresse pas trop directement avec ses affinités commerciales. Le couteau suisse de la recherche d'information, en quelque sorte.

Et nous qui croyions ingénument que les préoccupations mercantiles n'entraient pas en compte dans le classement des résultats, que le PageRank était aussi pur que l'équation de la gravitation, et que les liens sponsorisés se rangeaient dans de petites boîtes gentiment prévues à cet effet. Hum...

33 Commentaires:

Blogger TOMHTML a écrit...

Jean, pour votre étude, vous avez pris Google.fr ou Google.com ?
Car l'un prèfere plus Wikipedia que l'autre

Et encore, là je ne vous donne qu'un exemple, mais je trouve que Wikipedia arrive assez régulièrement dans mes SERPs, c'est moins le cas sur Yahoo! il me semble.
Enfin les stats sont là pour me contredire ;)

21 décembre, 2005 19:53  
Blogger Jean Véronis a écrit...

Tomhtml> Google.fr réglé sur lang=fr avec SafeSearch.

Ca m'a surpris aussi, mais en y réfléchissant bien, l'impression que j'avais, que Google retourne beaucoup de Wikipedia, est vieille de quelques mois... récemment, il me semble que Google a fait décliner Wikipedia dans ses classements (peut-être depuis l'alliance Wikipedia-Yahoo?). Par exemple, une requête sur Neron ne me ramène (sur Google.fr, pages fr) l'article de Wikipedia qu'en 16ème position... Il fut un temps où Wikipedia sortait première sur quasiment tout. Après le flirt, le désamour?

A creuser!

21 décembre, 2005 20:02  
Blogger Marianne a écrit...

Alors là, je suis atterrée... un mythe s'effondre ! Il n'y a plus qu'à espérer qu'ils choisissent des partenariats de qualité, pour qu'on s'y retrouve au moins quant à la qualité de l'info, si ce n'est le choix éclairé...
Merci pour ces informations !
PS : vous faites trimer vos pauvres étudiants même pendant les vacances de noel ?? :-)

22 décembre, 2005 09:19  
Blogger Jean Véronis a écrit...

Marianne> Je suis un bourreau! Non, en fait on n'est en vacances que ce soir dans notre université (sigh).

22 décembre, 2005 09:29  
Blogger Marianne a écrit...

Ahaa pas cool ça :-)
Au fait, complètement hors sujet, mais puisque vous êtes un expert de google : pourquoi y avait-il une souris hier sur la page d'accueil, et encore aujourd'hui (mais elle semble collaborer avec un chat ce qui me parait vraiment curieux) ??

22 décembre, 2005 09:36  
Blogger Jean Véronis a écrit...

Marianne> Pour l'instant personne ne le sait: c'est une petite histoire qui va probablement se dérouler sur quelques jours. A suivre: le lien suivant permet de voir la BD dans sa chronologie.

22 décembre, 2005 09:46  
Blogger Vicnent a écrit...

"Et nous qui croyions ingénument que" : Arghh ... le mythe s'effondre...
Mais comment tout cela est-il géré au sein des sociétés qui gèrent les moteurs ? il y aurait en plus du PageRank une pondération par "choix personnel" d'apparition ? Ainsi, chez MSN, les appels vers Doctissimo seraient "remontés vers le haut" du fait d'un choix de msn et non du pageRank ? (ok, pageRank, c'est google...)...

22 décembre, 2005 11:46  
Blogger Vicnent a écrit...

Désolé pour le "cross-post", mais Jean, précipitez vous ici (et les onglets suivants) : Google a copié votre Chronologue... Enfin, presque, il n'offre que quelques synthèses anecdotiques... ;-))
Et Joyeux Noël !!

22 décembre, 2005 11:55  
Anonymous Anonyme a écrit...

Vicnent 3.1416:

Je ne veux pas enlever à Jean le crédit qui lui serait dû, cependant, il faut reconnaître que le Zeitgeist de Google existe depuis longtemps. La visualisation diachronique des requêtes les plus demandées sur Google fait souvent l'occasion de commentaires.

Voici les archives pour 2001:
http://www.google.com/intl/en/press/timeline.html

Voici les archives pour 2002:
http://www.google.com/intl/en/press/timeline2002.html

Voici les archives pour 2003:
http://www.google.com/intl/en/press/zeitgeist2003.html

Par contre je n'ai pas trouvé de visualisation pour 2004...

22 décembre, 2005 15:50  
Blogger TOMHTML a écrit...

Merci Jean de votre réponse, en effet il est exact qu'il y a quelques mois encore Wikipedia était partout (pour je ne sais plus quelle star américaine, en tapant son nom dans google, malgré les centaines de milliers de résultats, la bio de l'artiste sur Wikipedia arrivait en première position, suivi du site officiel de la star).
On peut constater la même chose avec Answers.com, mais ça c'était il y a beaucoup plus longtemps, qui lui aussi arrivait souvent en tête des résultats ( il arrivait pratiquement toujours en tête quand je tappais "real name" + quelque chose...)

Sans transition, si vous vous ennuyez pendant les vacances, vous pouvez vous amuser à analyser ce que retourne la fonction "related:" (pages similaires) de Google. Il y a vraiment des cas très... étranges ^^ J'en ai fait la propre expérience ici :-)).

Bonnes vacances !

22 décembre, 2005 18:25  
Anonymous Anonyme a écrit...

Jean, trés bon article merci beaucoup.
Vous dite : En résumé, selon ce que vous cherchez, il faut bien choisir votre moteur! Etudiez avec Yahoo, soignez-vous avec MSN, achetez vos DVD et allez au ciné grâce à Voilà... Ou alors, prenez Google (ou, bien sûr, un de ses clones)
Je vous repondrais que c'est pour cela que j'aime bien les métamoteurs car ils facilitent la vie de l'internaute chercheur : pour mes recherches en anglais j'aime utiliser www.myway.com et pour la recherche française j'utilise www.franceevasion.com . Ces deux metamoteurs me permettent :
1 - d'avoir une synthése de recherche sur plusieur moteurs (yahoo, google, msn, et autres) mais en plus (et c'est génial), me permettent d'avoir mes résultats de recherche depuis un seul des moteurs cités au-dessus si je le désire ....
La vie est belle non ?
Ah ! une remarque : ils n'offrent pas de résultats depuis 'Voila" . :-)

22 décembre, 2005 18:53  
Blogger Jean Véronis a écrit...

dimitridf> Oui, ces graphiques existeent depuis longtemps, et sont très intéressants (bien que trop rares). Mais la différence c'est qu'ils donnent la chronologie des reqûetes, mon outil donne la fréquence sur les documents Ce serait intéressant d'ailleurs de voir d'il y a corrélation...

23 décembre, 2005 10:26  
Blogger J2J2 a écrit...

CQFD
Bravo Jean...

23 décembre, 2005 11:23  
Anonymous Anonyme a écrit...

Merci pour cette confirmation. Comme on en demande tjrs plus, serait-il possible de faire la même étude pour le rang des blogs selon l'hébergeur..

Il me paraît vraiment important, aussi bien pour la démocratie que pour l'efficacité de l'organisation collective de nos connaissances et aussi pour un fonctionnement correct des marchés, qu'un observatoire indépendant, mais démocratiquement contrôlé, fasse régulièrement ce genre d'analyse, produise des indicateurs fiables qui permettent des comparaisons et donc des choix.

Il y en a en France pour le cinéma, la presse, la TV.. où souvent on trouve des acteurs du privé et du public. Cela devient urgent pour le Web.
Je propose J Véronis comme directeur ;-)

23 décembre, 2005 12:57  
Blogger Jean Véronis a écrit...

JM> Je propose J Véronis comme directeur -- euh c'est gentil, mais je suis un dilettante: au bout d'un mois ça m'emmerderait à mourir ;-)

Mais je suis bien d'accord sur le fait que la démocratie a quelque chose à voir sur les moyens d'accès à l'information et leur fonctionnement!

23 décembre, 2005 13:02  
Anonymous Anonyme a écrit...

Jean> autant pour moi, la différence entre votre travail et celui de Zeitgeist est importante m'avait échappé. Je répondais à Vicnent31415 qui pensait voir dans le Zeitgeist 2005 une copie du Chronologue. Cela dit, additionnés, ces deux "indices" peuvent donner une belle idée des variations de l'actualité sur le web. D'un côté, on a des producteurs d'information (blogs, sites web etc) et de l'autre, des chercheurs d'information. Considérant l'immense succès des blogs, l'on pourrait discuter de la pertinence actuelle de diviser les deux types d'acteurs de l'actualité web, mais ils correspondent chacun à une position particulière face au web qui dans son addition nous fournisse une très belle image des réactions face à l'actualité. Quelqu'un qui étudierait par exemple le cas de la solidarité internationale autour du tsunami de l'année dernière aurait là un bien bel outil. Cependant, je n'ai pas vu d'outil de recherche permettant de sérialiser/temporaliser les requêtes de utilisateurs de Google et consorts. En connaissez-vous un?

23 décembre, 2005 18:28  
Anonymous Anonyme a écrit...

Personellement, j'aurais tendance à interpreter les resultats de cette etude differement et a dire plutot qu'on voit là les differences entre algorithmes. Je pense qu'il n'y a pas de decisions editoriales chez les moteurs a part peut etre pour Wikipedia (en tous cas c'est assez clair qu'il est traité differement sur Ask Jeeves).
Les "partenariats" que Jean evoque se font à travers l'achat de liens commerciaux c'est tout je pense.

23 décembre, 2005 23:38  
Anonymous Anonyme a écrit...

Voici un article vu sur silicon.fr traitant de l'éthique des moteurs Google, Microsoft et Yahoo qui nous démontre le sérieux de "l'affaire" :-) :
"Margo Wallstroems, vice-présidente de la Commission européenne, accuse Google, Microsoft et Yahoo d'adapter leur éthique à leur cible"
Voir l'article : http://www.silicon.fr/getarticle.asp?ID=12961

24 décembre, 2005 18:33  
Blogger Jean Véronis a écrit...

Olivier> C'est tout à fait ça... La conclusion de l'article est sans équivoque: La morale a ses limites, celle des actionnaires... Merci pour le lien.

24 décembre, 2005 18:40  
Anonymous Anonyme a écrit...

Bonjour,
Tout d'abord bravo pour votre étude et bonne chance aux étudiants...

C'est juste pour parler de l'incompatibilité d'humeur entre wikipédia et voilà.
Au moment de la disparition du pape Jean Paul II et de l'arrivée de Benoît XVI, on avait vu que le nombre de personnes visitant wikipédia pour ces pages étant très important.
Sachant que pour la France (principalement pour les abonnés de wanadoo), voilà est le moteur par défaut, j'ai été voir le site et le Top Voila.fr (les demandes revenant le plus souvent). Le même constat, dans les premières demandes, il y a Jean Paul II, Benoît XVI, Vatican et Concile. je regarde si wikipédia est aussi bien représenté que sur Goggle ou Yahoo, mais non, rien du tout. Je regarde Vatican + wikipédia (pour être sûr) et je vois des sites miroirs, mais pas de wikipédia.

Je me décide d'écrire un mail à Voilà pour faire part de mon étonnement et la réponse fut sans appel.
" L'algorithme de Voila est très bien fait mais n'inclut pas wikipédia, c'est un choix de Voila. De plus, nous ne pouvons rien faire manuellement."
Je répond donc en demandant si les sites publicitaires (bouquins, tours opérateurs), le site humoristique (sans références au Vatican) ou encore le portail pour Senior (sans autre référence que le voyage (en 2002) de Jean Paul II je sais plus où) qui se trouvaient en première page répondaient efficacement à la recherche des personnes et même plus que l'article Vatican sur wikipédia.
Le lendemain, ces sites avaient disparu de la recherche Vatican mais wikipédia n'y était toujours pas...

Depuis, je déconseille fortement l'utilisation de voila.fr en disant que le site est vendu à des sociétés et que son seul but est de donner des liens commerciaux... (ça vous plombe une réputation ces affirmations, c'est pas croyable)
je le dis donc ici aussi, utilisez n'importe quel moteur de recherche mais surtout pas voila.fr...
Ce qui paraît bizarre, c'est que voila.fr n'a plus d'encyclopédie en ligne et que par conséquent, wikipédia n'est plus une menace pour Voilà.

@ bientôt et encore bravo pour votre étude.
David (un wikipédien bien entendu)
Ps:J'utilise généralement Yahoo et Google à cause d'une allergie chronique à Microsoft (µ$)...

26 décembre, 2005 21:24  
Blogger Jean Véronis a écrit...

David> Merci pour ce témoignage (j'ai ajouté un petit commentaire dans le corps du billet). L'argument de Voilà est évidemment bidon : il a bien fallu intervenir manuellement pour interdire Wikipedia, qui sinon, ne manquerait pas d'être crawlée! D'autant qu'ils vous ont donné la preuve le lendemain de votre intervention qu'ils corrigeaient manuellement la base de donnée (ce que font d'ailleurs tous les moteurs). C'est très dommage que Voila soit parti en déshérence. C'étaient les seuls avec le groupe Illiad (Dir.com) qui avaient les reins assez solides pour contrer les moteurs américains, s'ils l'avaient voulu. Exalead fait un travail superbe, mais c'est un peu David et Goliath...

27 décembre, 2005 08:40  
Anonymous Anonyme a écrit...

Bonjour,

Grâce à vous (comme je suis juste un étudiant, je préfère vouvoyer), j'ai découvert Exalead et je dois dire que je suis très agréablement surpris...
Très bonne qualité (rendu graphique et pertinence), de bon outils et une excellente intégration avec firefox (tout pour me plaire en fait ^^)

Maintenant, je vais utiliser Google, Yahoo et Exalead. (j'aime bien le fait de mettre des sites important sur la page d'acceuil).
Seul défaut (mais le site est encore jeune et trop peu connu), il n'intégre pas encore les flux informations...

David
Ps:Votre Blog représente bien ce que doit être les blogs à mon sens, un lieu d'échange organisé par quelqu'un d'important (ici, un professeur) pour mener une réflexion.

27 décembre, 2005 11:51  
Anonymous Anonyme a écrit...

Bonjour,

Google a déposé un brevet au moment de la mise en route de Google News qui affirme clairement que les sites ont une notoriété qui peu découler d'une sélection humaine.

Il s'agit en l'occurence d'établir une métrique complexe pour classer les sources de news, mais on peut évidemment penser que des éléments de cet métrique se retrouvent dans l'ensemble des activités de Google (et vraisemblablement de tous les autres moteurs compte tenu de la généralité des éléments mis en oeuvre).

Le brevet "Systems and methods for improving the ranking of news articles" (United States Patent Application 20050060312, publié le 17 mars 2005) est disponible sur le site de l'USPTO : http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.html&r=1&f=G&l=50&s1=%2220050060312%22.PGNR.&OS=DN/20050060312&RS=DN/20050060312

Le résumé dit clairement l'objectif :
"A system ranks results. The system may receive a list of links. The system may identify a source with which each of the links is associated and rank the list of links based at least in part on a quality of the identified sources.".

Et les méthodes pour classer les "sources" (et non seulement les "articles" ou les "documents" ce qui est le propre du google rank) sont revendiquées :
"The method of claim 1 wherein the ranking includes: retrieving a source rank value for each identified source, the source rank value being based at least in part on one or more of a number of articles produced by the identified source during a first time period, an average length of an article produced by the identified source, an amount of important coverage that the identified source produces in a second time period, a breaking news score, network traffic to the identified source, a human opinion of the identified source, circulation statistics of the identified source, a size of a staff associated with the identified source, a number of bureaus associated with the identified source, a number of original named entities in a group of articles associated with the identified source, a breadth of coverage by the identified source, a number of different countries from which traffic to the identified source originates, and a writing style used by the identified source.

Le critère "human opinion of the identified source" est précisément inclus dans l'algorithme.

Le brevet ne précise pas la pondération entre les 10 métriques utilisées... Les expériences de "reverse googling" menées par Jean et son équipe peuvent en revanche nous éclairer. Sur Google et sur les autres, évidemment.

Hervé Le Crosnier

27 décembre, 2005 23:48  
Anonymous Anonyme a écrit...

"Votre Blog représente bien ce que doit être les blogs à mon sens, un lieu d'échange organisé par quelqu'un d'important (ici, un professeur) pour mener une réflexion."

Malheureusement les "importants" se font trop rares dans les systèmes d'échange en ligne:
http://groups.google.com/group/fr.misc.cryptologie/msg/7a2a35d3497f0b0e
http://groups.google.com/group/fr.education.superieur/msg/58112383da19c07d
http://www.mmt-fr.org/article49.html

-- apokrif1@yahoo.com

29 décembre, 2005 00:39  
Blogger Jean Véronis a écrit...

David, Anonymous> Quelqu'un d'important... -- vous êtes gentils, mais je vais finir par avoir la grosse tête ! J'essaie juste de partager ce que je fais avec d'autres. Ce qui est fantastique sur la blogosphère (et le Web en général), c'est que l' "importance" ne dépend plus du statut social, mais de ce qu'on dit (et sans doute quelque peu de la façon dont on le dit)...

29 décembre, 2005 09:55  
Blogger Jean Véronis a écrit...

Hervé> J'en ai parlé ici. Le brevet concerne plutôt les News, mais de toutes façons je crois que les moteurs n'ont pas attendu ce brevet pour faire des réglages manuels (et certains choix de pondérations dans les algorithmes sont de toutes façons déjà des choix éditoriaux).

29 décembre, 2005 10:00  
Blogger TOMHTML a écrit...

hervé > c'est justement pour cela qu'existe eval.google.com , dont le but est de vérifier par des humains la pertinence des résultats. Donc dans Google aussi, les sites peuvent être classés non pas par des algorithmes, mais par des humains.

29 décembre, 2005 14:51  
Anonymous Anonyme a écrit...

Serait-ce pour ceci qu'un certain site nommé Gahooyoogle (comprenez Yahoo & Google) en aurait tiré certaines conclusions permettant de faire de recherches croisées pour des résultats plus ciblés ?

J'utilises moi-même ce "moteur" alternatif qui renvoie effectivement un nombre impressionnant de résultats en rapport avec mes diverses recherches sur le net sans avoir à passer de l'un à l'autre.

PS : Bonne année 2006 à tous.

Zef

31 décembre, 2005 14:04  
Anonymous Anonyme a écrit...

Serait-ce pour ceci qu'un certain site nommé Gahooyoogle (comprenez Yahoo & Google) en aurait tiré certaines conclusions permettant de faire de recherches croisées pour des résultats plus ciblés ?

J'utilises moi-même ce "moteur" alternatif qui renvoie effectivement un nombre impressionnant de résultats en rapport avec mes diverses recherches sur le net sans avoir à passer de l'un à l'autre.

PS : Bonne année 2006 à tous.

Zef

31 décembre, 2005 14:05  
Anonymous Anonyme a écrit...

Encore mieux: http://yahoogooglemsn.com/

01 janvier, 2006 00:25  
Anonymous Anonyme a écrit...

tomhtml> "c'est justement pour cela qu'existe eval.google.com dont le but est de vérifier par des humains la pertinence des résultats. Donc dans Google aussi, les sites peuvent être classés non pas par des algorithmes, mais par des humains."

tu commets ici une petite erreur de demonstration. l'interface derriere l'url eval.google.com ne permet pas d'influencer directement les SERPs. Ce subdomain sert aux "agents" de google (qui ne sont pas des employes) pour evaluer et noter la qualite des resultats (), et de determiner le "user happiness" (sic). on parle ici des SERPs, et non de sites isoles. Cette evaluation est donc toujours relative a une requete et est 'passive'

ce qui ne veut pas dire que ta conclusion est fausse ;)

03 janvier, 2006 15:30  
Anonymous Anonyme a écrit...

Je lis votre blog avec plaisir (aie, si c'était rude, je ne le ferais pas, la langue m'emporte... scusez) enfin bref, je cherchais des renseignements sur une initiative japonaise, (http://www.cio-today.com/news/Japan-Plans-Search-Engine/story.xhtml?story_id=110003OVHVEK et http://www.timesonline.co.uk/article/0,,25689-1943855,00.html) alors votre blog m'est revenu à l'esprit.
Rien à priori sur ce sujet, mais une bonne occasion pour vous remercier de votre blog. Je n'y post pas (comme usque 228 000 personnes) mais je vous lis avec intérêt, alors; merci.
(Je viens de passer LA semaine de l'année en ma langue maternelle, excusez aussi mon français désastreux qui s'en suit.)

04 janvier, 2006 21:28  
Anonymous Anonyme a écrit...

Bonjour,

Je viens de lire votre article sur les soi-disant connivence entre les moteurs et quelques sites.

Mais très sérieusement votre expérience ne fait que prouver que certains site sont mieux référencés que d'autres sur certains moteurs.

Ces moteurs utilisant tous des technologies différentes, cela me semble tout à fait logique.

Maintenant, que les sites les mieux référencés sur le web soient amazon, ebay, wikipedia ou encore d'autres que vous citez, si cela vous étonne, moi je trouve cela tout à fait normal étant donné la notoriété de ces sites mais surtout le nonmbre de documents qu'ils présentent.

Enfin, je doute que votre "expérience" ait été méner avec une véritable impartialité. A mon avis, vous cherchiez à démontrer quelque chose et vous avez fait en sorte de ne relever que les résultats qui allaient dans le sens de votre démonstration.

Ce qui m'inquiéte le plus, la dedans, c'est que certains considère cela comme "la preuve irréfutable".

Cette espérience n'apporte absolument pas la preuve d'une connivence entre les moteurs et certains sites.

05 janvier, 2006 18:29  

Enregistrer un commentaire