Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, mars 07, 2005

Web: Yahoo indexe plus de pages que Google






Lire la suite

9 mar - Incroyable ! Yahoo double ses comptes !
13 mar - Google ajuste ses comptes




Dans de précédents articles, j'ai montré que Google et MSN semblent gonfler artificiellement leurs résultats, dans une proportion considérable. La raison en est probablement que leur index véritables sont bien plus petits que les chiffres annoncés pour des raisons de marketing (60% pour Google, 75% pour MSN). Voir:
Les chiffres de Yahoo semblent sincères -- du moins ils sont cohérents, et ne montrent pas les inconsistances qui trahissent Google et MSN. Dans cette nouvelle étude, je montre que Yahoo indexe plus de pages françaises que Google, et à peu près le même nombre de pages anglaises. MSN est à la traîne pour l'anglais, mais il indexe aussi plus de pages que Google pour le français. Ceci est quelque peu paradoxal, puisque, grâce à la stratégie de marketing de Google, la plupart des utilisateurs pensent que c'est le plus gros moteur dans la compétition. Nous allons voir que ce n'est pas le cas si l'on s'intéresse aux index véritables, et non à de simples bases d'URL. En fait, Google joue avec les mots. Il dit sur sa page d'accueil "Nombre de pages Web recensées par Google : 8 058 044 651", ce qui est probablement vrai, mais il ne promet pas de les indexer vraiment... J'ai montré dans l'étude citée ci-dessus que pour 40% de ces pages, Google connaît seulement l'URL de la page, et n'a pas indexé les mots que cette page contient (Google appelle cela "l'index supplémentaire"). Cela signifie que si l'on tape un mot donné, on n'a aucune chance de tomber sur les pages de l'index supplémentaire qui le contiennent -- à moins que le mot fasse partie de l'URL elle-même.

La stratégie que j'ai utilisée est analogue à celle de mes études précédentes. Des listes de mots de moyenne fréquence en anglais et en français ont été fournies en entrée aux différents moteurs, et leurs nombres de résultats ont été enregistrés (voir détail anglais et français).

Les diagrammes ci-dessous donnent la comparaison Yahoo vs Google pour l'anglais et le français respectivement :

Yahoo vs Google (English)

Yahoo vs Google (French)
Les droites de régression (en rose) montrent que Yahoo et Google renvoient à peu près le même nombre de résultats pour l'anglais, mais que Yahoo renvoie environ 1.3 fois plus de résultats pour le français.

Les diagrammes suivants donnent la comparaison MSN vs Google pour l'anglais et le français respectivement :

MSN vs Google (English)

MSN vs Google (French)
Les droites de régression montrent que MSN renvoie moins de résultats que Google pour l'anglais (environ 0.8 fois). Cependant, il renvoie environ 1.13 fois plus de résultats pour le français.

D'autres facteurs entrent évidemment en jeu lorsqu'il s'agit de comparer des moteurs de recherche (tels que la pertinence du classement des résultats). Toutefois, ce sont les moteurs eux-mêmes (principalement Google et MSN) qui ont placé la compétition sur le terrain de la taille. Le plus ironique est sans doute que le seul moteur qui n'ait pas joué ce jeu (Yahoo), puisqu'il n'a pas médiatisé sa taille d'index, semble dépasser Google et MSN en termes de taille pure.

Enfin, ces résultats semblent indiquer des stratégies différentes de la part des moteurs. Comme il est probable que Google a des difficultés techniques à accroître la taille de son index de façon importante (ceci a été déjà remarqué : voir discussions ici; voir aussi ce billet récent), la firme semble avoir choisi de se concentrer sur le monde anglophone, alors que Yahoo et MSN visent une audience plus large. Il serait intéressant de réaliser des comparaisons sur d'autres langues (allemand, etc.) pour voir si ceci se confirme, mais je suis convaincu que oui. En effet, Google dépend beaucoup plus de son moteur que les autres firmes en termes de revenus (98% pour Google contre 45% for Yahoo -- certains analystes commencent d'ailleurs à considérer que cette dépendance est une faiblesse) et sa technologie pour la publicité contextuelle (AdSense) est principalement adaptée à l'anglais. Elle provient de la technologie CIRCA développée par Applied Semantics, une compagnie rachetée par Google en avril 2003 (voir dépêche de presse). CIRCA utilise une ontologie basée sur WordNet pour l'anglais. Il n'y a pas d'ontologie équivalente pour les autres langues à l'heure actuelle, et connaissant la somme d'efforts que représente le développement de telles bases de données, je doute fort que Google ait pu développer des ontologies de même type pour d'autres langues en un temps aussi court. Les pièces du puzzle semblent d'emboîter parfaitement : la dépendance à un moteur entraîne la dépendance aux publicités, et la publicité contextuelle implique que Google se concentre sur l'anglais dans l'état actuel de la technologie.

Toutefois, c'est une stratégie dangereuse pour Google. Les autres moteurs pourraient rapidement gagner du terrain dans le monde non-anglophone dès que les utilisateurs auront réalisé qu'ils offrent de meilleurs services que Google pour leurs langues maternelles.



Lire la suite

9 mar - Incroyable ! Yahoo double ses comptes !
13 mar - Google ajuste ses comptes



5 Commentaires:

Anonymous Anonyme a écrit...

Vous dites :

"CIRCA utilise une ontologie basée sur WordNet pour l'anglais. Il n'y a pas d'ontologie équivalente pour les autres langues à l'heure actuelle..."

Mais il existe EuroWordNet. Vous ne l'avez sans doute pas mentionné car il faut payer pour l'utiliser, même si on est chercheur... :(

Quant aux autres ontologies pour des langues non anglaises, il existe des FrameNets (encore incomplets je crois) pour l'allemand, l'espagnol et le japonais (cliquer sur "FNs abroad"). Des chercheurs au LORIA veulent faire un FrameNet pour le français. L'avantage de FrameNet sur WordNet, c'est que le premier prend en compte de l'information syntaxique d'une entrée. Cela dit WordNet est très utile dans plusieurs applications du TAL.

Encore un billet intéressant, merci.

07 mars, 2005 14:35  
Blogger Jean Véronis a écrit...

Oui, je n'ai pas mentionné EuroWordNet, car je pense que la qualité n'est pas du tout la même que celle du WordNet anglais. Il pourrait peut-être servir de base, mais il y aurait encore un travail considérable à faire pour le mettre à niveau. Sur FrameNet, je suis bien d'accord, l'information y est beaucoup plus intéressante... mais comme vous dites, c'est encore incomplet (et inexistant pour bien des langues). A suivre (mais ça prendra du temps!).

07 mars, 2005 15:42  
Anonymous Anonyme a écrit...

Ces articles sont vraiment très intéressants.
Question d'un non spécialiste:

Quand vous faites vos analyse d'index, comment être certain que la taille de l'index est bien le corollaire d'une recherche plus pertinente ?
Ne serait il pas possible en fait que l'index de Google soit en réalité plus restreint car il exclue d'offiec certaines pages non pertinentes ?
En effet j'ai déjà entendu que des sociétés de référencement publiaient des séries pages indexées sans contenu intéressant juste pour monter le rang d'une page vers laquelle elles pointent.

Si google effectue mieux son tri avec ses robots, on aurait alors une meilleure pertinence pour un index plus faible mais peut être mon raisonnement ne porte pas exactement sur les même elements que vous étudiez.
Cldt,

07 mars, 2005 19:43  
Blogger Jean Véronis a écrit...

> la taille de l'index est bien le corollaire d'une recherche plus pertinenteNon, pas nécessairement. Mais je ne crois pas que Google exclut des pages non pertinentes. Pour deux raisons : (1) il n'a pas nécessairement la technologie pour faire ça de façon massive, car c'est assez complexe (toutes langues confondues) (2) au contraire Google joue la carte de l'inflation des chiffres et j'ai montré précédemment que dans les soi-disant 8 milliards de pages, il y a 40% de simples URL sans contenu. On a aussi souvent mentionné sur les forums spécialisés la grande quantité de pages dupliquées, vides, etc.

Mais vous avez raison: taille et pertinence sont deux choses distinctes. Du point de vue de la pertinence, et de façon "non scientifique", puisque basée sur de simples essais informels, MSN me paraît moins pertinent que Google dans son classement de résultats, mais Yahoo me paraît tout à fait correct, voire meilleur en ce moment sur le français.

07 mars, 2005 20:21  
Blogger Jean-Philippe a écrit...

Il me semble assez hasardeux d'essayer de trouver un semblant d'explication scientifique à une annonce marketting, par exemple la recherche de:
ambidextrous scallywags
sur Google donne 316 resultats (about) et effectivement 304
sur Yahoo 438 ! mais si on clique sur la page 10 cela se transforme en 102 !! avec 98 résultats effectifs.

Quelle surprise ... Finalement la réponse n'est elle pas dans les milliards que Yahoo dilapide ?
Besoin d'un petit coup de pouce yahoo ?

13 août, 2005 07:06  

Enregistrer un commentaire