Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, février 08, 2005

Web: Le mystère des pages manquantes de Google résolu




Lire la suite

28 fév - MSN triche-t-il aussi ?
7 mar - Yahoo indexe plus de pages que Google
13 mar - Google ajuste ses comptes
23 mar - 5 milliards de "the" sont partis en fumée
25 mar - Un instantané sur la mise à jour



Dans de précédents articles, j'ai mis en évidence deux problèmes étranges affectant les comptes de Google (ici et ici). Des millions de pages semblent massivement disparaître :
  • si l'on tape Chirac OR Sarkozy, on obtient la moitié des résultats obtenus pour Chirac tout seul, ce qui peut trouver une explication politique, mais constitue une curieuse approche de la logique booléenne ;
  • si l'on cherche the dans les pages anglaises, on obtient 1% du nombre de résultats obtenus sur l'ensemble du Web, toutes langues confondues. Est-ce que ça veut dire que the est 99 fois plus fréquent dans les langues autres que l'anglais ? Bien sûr que non.
Où sont passées les pages manquantes ? C'est le problème que je me pose dans cet article. Un scenario possible est que l'index véritable de Google est considérablement plus petit que la taille officiellement annoncée. L'expérience détaillée que je rapporte ci-dessous donne une estimation de 60%, ce qui correspondrait à une taille d'index véritable d'environ 5 milliards de pages. Ce scénario est bien sûr entièrement hypothétique, mais il permet d'expliquer les différences dans les comptes de pages anglaises, et le comportement singulier des opérateurs booléens.

Je préfère le dire clairement tout de suite, de façon à ne pas faire perdre leur temps aux commentateurs éventuels : ceci ne veux pas dire que Google soit un mauvais moteur (je l'ai d'ailleurs en page d'accueil de mon navigateur). Pour la plupart des utilisateurs, les comptes sont sans intérêt, et ce qui... compte pour eux, c'est de savoir s'ils obtiennent leur résultats rapidement et efficacement ou non. Les chiffres ne présentent un intérêt que pour les experts, et dans ce cas précis, ils ont des raisons de s'interroger.

Une expérience

Dans cette nouvelle expérience, je n'ai pas utilisé des mots fréquents comme the, car de tels mots ont toutes les chances de faire l'objet d'un traitement spécial dans tous les moteurs de recherches. Ils font probablement partie d'un antidictionnaire (stoplist), et leurs occurrences ne sont probablement pas pleinement indexées. J'ai plutôt utilisé 50 mots anglais tirés au hasard dans un corpus d'un million de mots (accumulated, alive, ancestor, bushes, etc.), en éliminant les mots pour lesquels je connaissait un homographe évident dans une autre langue (par exemple patio).

La figure ci-dessous donne une représentation des comptes fournis par Google pour une recherche de ces mots dans les pages en anglais par rapport à ceux qu'il fournit sur l'ensemble du Web (la partie qu'il en connaît, bien évidemment) [voir résultats complets ici -- toutes les valeurs ont été obtenues le 6 février] :


La pente de la droite de régression nous indique que les résultats en anglais représentent 56% des résultats pour l'ensemble du Web, sur les mêmes mots. Bien entendu, j'ai pu manquer quelques homographes interlingues, et certains des mots apparaissent probablement cités dans des pages non-anglaises, mais ces facteurs devraient être marginaux -- et de toutes façons différents pour chaque mot. Si quasiment la moitié des occurrences apparaissent dans des pages non-anglaises, on devrait oberver une dispersion considérable des résultats. Au lieu de cela, on observe une très forte corrélation entre les deux comptes, avec un coefficient de détermination R2 égal à 0.96. Cette corrélation importante est statistiquement impossible, et un facteur systématique doit être présent pour l'expliquer. Une possiblité serait une performance très médiocre de l'algorithme de détection de langues utilisé par Google, mais c'est une explication très improbable, car on en verrait des traces dans près d'un résultat sur deux. Or, c'est loin d'être le cas : la détection des langues dans Google est très robuste, même si, évidemment, elle n'est pas parfaite.

Par ailleurs, si nous examinons les résultats de Yahoo pour la même liste de mots, nous obtenons un comportement bien plus conforme à nos attentes [voir résultats complets ici] :


La corrélation est également très forte (même plus forte, en fait), mais ceci est tout à fait normal, puisque les résultats sont presque identiques : les résultats anglais représentent 92% du total. Ce chiffre est bien plus en accord avec nos connaissances linguistiques.

Les résultats français sont tout à fait similaires. J'ai fabriqué une liste de mots français selon les mêmes principes, et je l'ai soumise à Google et Yahoo [voir résultats complets ici]. Google donne 58% des résultats situés dans des pages en français, avec, à nouveau, une corrélation importante -- légèrement plus faible (R2 = 0.86), mais également incompatible avec la proportion importante de résultats qui seraient situés dans des pages non-françaises. Le comportement des mots individuels devrait amener une image globale beaucoup plus aléatoire.



Yahoo se comporte exactement comme pour l'anglais. La proportion des résultats situés dans des pages françaises est même légèrement supérieure (97%), ce qui est conforme aux attentes, puisque l'anglais, langue internationale, est plus susceptible que le français d'être cité dans de nombreux documents en langues étrangères.



Un scénario possible

De nombreux experts (voir par exemple ici) pensent que la base de données de Google est composée de deux parties (au moins). L'une des deux parties est un véritable index, tandis que l'autre ne contiendrait que des URLs de pages dont Google connaît la présence, mais qui n'ont pas été réellement indexées (à part peut-être les mots présents dans l'URL). Je n'ai bien entendu aucun moyen de savoir si cette hypothèse est correcte (bien que, jusqu'en 2002, Google l'ait admise publiquement), mais elle permet d'expliquer les comportements curieux dont je me suis fait l'écho ci-dessus.

Appelons ces parties hypothétiques A et B, composant à elles-deux la base de données D :



Nous pouvons dès lors écrire un scénario possible. Quand on interroge Google avec un mot X sans spécification d'une langue particulière, Google interroge son index (c'est-à-dire la partie A), qui lui fournit un nombre de résultats. Ce compte est extrapolé pour être en accord avec la taille de la base de données D (c'est-à-dire augmenté dans un rapport de 1/0.60 = 1.66). Par contre, lorsque la recherche est restreinte à une langue particulière, l'extrapolation n'est pas faite, car les pages dans la partie B ne sont pas indexées, et pas catégorisées du point de vue des langues. Seuls les résultats de A sont fournis. Bien sûr, il aurait été possible de projeter les proportions des différentes langues de A dans la base de données D, et de fournir une extrapolation réaliste malgré tout, mais les ingénieurs de chez Google n'y ont sans doute pas pensé, ou ont trouvé que c'était sans importance.

On peut calculer une estimation très précise de la taille relative des parties A et B, à partir de mes résultats précédents. Selon Yahoo (si on accepte de lui faire confiance), 92% des résultats concernant ma liste de mots anglais sont situés dans des pages en anglais. Si l'on applique la même proportion à Google, cela veut dire que l'index (c'est-à-dire la partie A) est de 0.52 / 0.92 = 60.9% de la taille de D. Il est assez intéressant de remarquer que si on applique les mêmes calculs au français, on obtient une estimation de 0.58 / 0.96 = 60.4%. Ces chiffres sont si proches qu'il serait surprenant qu'ils soient dus à une coincidence.
Selon le scénario esquissé ci-dessus la taille réelle de l'index Google est donc d'environ 60% de celle de la base de données complète, et les résultats fournis sont affectés d'un facteur d'inflation de 66% (1/0.60 - 1).
Il est difficile de rapporter ces proportions à des valeurs absolues, car personne ne sait exactement quelle est la taille de la base de données Google. En novembre 2004, Google a annoncé que le moteur cherchait dans 8 058 044 651 pages Web. Ce chiffre n'a pas changé depuis sur la page d'accueil, mais j'ai montré le 23 janvier que l'index s'était accru d'un facteur 1.13 depuis novembre (lire ici). Une estimation du 6 février me donne un facteur d'accroissement de 1.14. Ceci correspondarait à une base de données de 9.2 milliards de pages, c'est-à-dire un index véritable (partie A) d'environ 5.5. milliards. Certains obervateurs ont observé qu'en novembre, Google a affiché pour un court instant 10.8 milliards de résultats pour la requête the, ce qui indiquerait une base de données plus grande encore, à moins que cela signifie simplement qu'à un moment donné Google a envisagé un facteur d'inflation encore plus grand. Nous ne le saurons probablement jamais.

Un nouveau regard sur la logique Googléenne

Le scénario hypothétique esquissé ci-dessus fournit également une explication simple au problème de la logique Googléenne. Rappellons-nous que X OR Y renvoie moins de résultats que X tout seul (voir détails). Encore plus étrange, X OR X et X (AND) X renvoient aussi moins de résultats que X tout seul. J'ai interrogé Google avec X OR X et X (AND) X pour chaque mot de ma liste anglaise (avec l'option "tout le Web") . Les résultats sont dans les deux cas quasiment identiques pour la totalité des mots [voir résultats complets ici], et, ce qui est encore plus surprenant, ils correspondent quasi exactement aux résultats pour X sur les pages anglaises seulement (coefficient de détermination R2 > 0.999 !


Il est probable que Google effectue ses calculs booléens (union et intersection de listes) sur la base de l'index véritable (partie A). Ceci expliquerait pourquoi X OR X et X (AND) X donnent les mêmes résultats qu'une recherche sur X en anglais. La même chose se produit avec les mots français [voir résultats complets ici]. Si ce phénomène surprenant n'a pas été relevé jusqu'ici c'est sans doute qu'il est brouillé lorsqu'on utilise des mots qui peuvent apparaître dans plusieurs langues (homographes comme patio ou noms propres comm Chirac ou Bush).

Selon toute probabilité, les ingénieurs Google ont oublié de connecter la routine d'extrapolation à la sortie du module de requêtes booléennes ! En conclusion, si vous voulez connaître le vrai compte des mots dans l'index Google, tapez-les deux fois :

MotCompte
Chirac3 570 000
Chirac Chirac
2 170 000

La deuxième ligne fournit probablement le vrai compte...

Lire la suite

28 fév - MSN triche-t-il aussi ?
7 mar - Yahoo indexe plus de pages que Google
13 mar - Google ajuste ses comptes
23 mar - 5 milliards de "the" sont partis en fumée
25 mar - Un instantané sur la mise à jour



34 Commentaires:

Blogger Loran a écrit...

Excellent!!!!!!
Bon ben c'est definitif je deviens pompom girl de votre fan club!

08 février, 2005 15:22  
Blogger J2J2 a écrit...

Ou comment le marketing l'emporte sur la raison.Cet scénario semble finalement assez probable.

En effet, l'hypothèse des deux index est plus que certaine. Tous les moteurs de recherche fonctionnent plus ou moins de de la sorte.
Le "spider" est alimenté par une file d'attente d'URLs issues de l'analyse des différents documents de la base de données A et des soumissions volontaires. Ce spider alimente la base de données B en parcourant le web. La base de données B, en attente d'indexation (afin d'entrer dans la base de données A) est potentiellement très grosse puisqu'un
spider (qui finalement n'est rien d'autre qu'un wget) n'est limité que par la bande passante, contrairement au processus d'indexation qui demande des algorithmes complexes.

En revanche cette extrapolation m'inquiète encore un peu plus sur Google (j'avais déjà tellement d'inquiétudes au sujet de Google aujourd'hui...).
Que Google fasse une extrapolation à partir de résultats partiels, pour nous fournir une évaluation du nombre de réponses me semble tout à fait acceptable, mais extrapoler sur le volume d'une base qui n'est pas indexée est tout de même incroyable!

Google aurait-il si peur que cela de MSN et Yahoo?L'équipe de management de Google doit tout de même bien savoir que la taille de l'index n'est pas TOUT dans un moteur de recherche...

08 février, 2005 16:04  
Anonymous Anonyme a écrit...

Bon ben je viens de poster un commentaire ici allant dans le sens de ton article, mais ma contribution était évidemment beaucoup moins bien argumentée et documentée.
Pourtant, il me reste un doute concernant les 60% de pages référencées : c'est le rapport anglophone/web de l'ordre de 1% qu'on obtient pour "the" mais aussi pour l'ensemble des mots très fréquents en anglais (et donc très fréquents sur le web anglophone).

Ce rapport n'est-il pas en faveur d'une partie indexée bien inférieure aux 60% que tu obtiens ?

Autre chose, pour répondre au commentaire précédent et au blog cité en lien par l'auteur : il n'y a pas que les google search, google mail, google photos en ligne... Il y a aussi le google jeu : il s'agit de trouver une requête sur deux termes (français) ne rendant qu'un seul résultat.

Exemple en françaisExemple en anglaisLes deux exemples se rapportent à google.fr, recherche sur le web entier, mais évidemment, toutes les variations sont possibles ;-)

08 février, 2005 18:00  
Blogger Loran a écrit...

Rebonjour

ne pourrait on pas tester ceci en faisant la recherche sur un mot extremement rare (moins de 1000 resultats qui est la limite d'affichage de google)?

Je n'ai pas réussi a trouver de mots avec moins de mille résultats en Francais et en Anglais.

Pour info ornithorynque renvoie quand meme 49 500 pages de resultats.

Mais dans d'autres langues accessibles a travers l'onglet recherche avancée (je pense a l'islandais, le croate ou le serbe)?
Le probleme etant alors d'avoir un dictionnaire sous la main permettant la recherche d'un mot rare en serbe (Mais m'adressant a un linguiste, je suis plein d'espoirs! :) ).

On devrait pouvoir trouver un mot qui renvoie moins de 1000 reponses dans les deux cas (international et langue choisie).
Si le probleme vient du fait que l'indexage n'est pas encore réalisé on devrait pouvoir voir les resultats proposés par l'index international non encore indexés?
Ce qui permettrait de voir s'il existent, s'ils sont classes et si oui comment...
C'est un peu fumeux mais qu'en pensez vous?

08 février, 2005 18:09  
Blogger Jean Véronis a écrit...

Ouh là! tous ces commentaires, d'un coup. Je n'arrive pas à suivre. J'étais en train de répondre à Anonymous sur l'autre post... Je met ici ce que je disais.
--
Il est fort improbable que les mots fréquents soient totalement indexés, pour des raisons évidentes de place. Pas question d'indexer tous les "the", mais on peut en indexer une partie, concernant les pages de relevance la plus élevée. Mon hypothèse est qu'au-delà de 0.5 x 10^8 la proportion mise dans l'index suit une loi de ce type. Ca paraît être une bonne solution technique. Et comme l'interrogation sur les pages en anglais a l'air de faire apparaître le vrai contenu de l'index [voir mon billet d'aujourd'hui], c'est peut-être l'explication...
--

Sur l'indexation progressive, Jerôme a tout à fait raison. Le problème c'est qu'il y a peut-être une limite technique, qui fait que Google doit enlever des pages d'un côté s'il en ajoute de l'autre... On pourra vérifier si on voit croître la partie A ou pas. Beaucoup de gens disent que la programmation de Google arrive un peu à bout de souffle avec des bases de données de tous les côtés et pas mal de rustines pour tenir le tout. Les moteurs plus jeunes ont l'avantage de pouvoir partir sur du neuf...

Pour Loran : je crois que les mots à très faible fréquence suivent encore une autre logique, et sont peut-être encore dans un autre index... A voir. Effectivement, on pourrait en tester, et tester des langues plus rare (c'est dans mes plans, mais le temps manque un peu).

Pour le fan-club, c'est super (mais les poms-poms girls, j'ai l'impression que ça va faire un peu "cage aux folles" si j'en juge par le profil de Loran ;-).

08 février, 2005 18:23  
Blogger Eric Baillargeon a écrit...

Je pense que la théorie des 2 index est surement probable. Par contre la détection des langues est plutôt problématique. Un exemple que j'affectionne est sur des mots rares comme "Gourgane" sur Google Canada:
Google Web : 698 résultats
Google Pages Canada : 751 résultats
Google Pages Francophones : 1,170 résultats

08 février, 2005 21:42  
Blogger Eric Baillargeon a écrit...

Oups... dans le commentaire précédent le mot Gourgane devrait avoir être "Gourganes" avec son S

08 février, 2005 21:47  
Anonymous Anonyme a écrit...

Un ami m'a conseillé la lecture de votre article, tandis que je réfléchissais à un autre problème : un site web qui n'est pas indexé par Google (par choix, avec un un robots.txt comme il faut) qui a pourtant un pagerank de 2 !... Et votre explication de la base de données en 2 parties a fait tilt. Une possibilité : la partie B serait aussi utilisée pour le calcul du pagerank. Les pages non-indexées participent ainsi à leur insu, et se voient même attribuer en retour des points de pagerank... En l'occurence ce site, forum, pointe sûrement vers beaucoup de pages à pagerank élevé. Ce qui indiquerait l'importance des liens sortants... vu qu'il n'y a pas de liens entrants.

09 février, 2005 06:38  
Blogger Jean Véronis a écrit...

Christophe: Oui, c'est entre autres à Greg R. Notess que je pensais. Des études très bien faites, bien qu'un peu anciennes -- mais l'architecture et la programmation de Google n'ont probablement pas changé de façon fondamentale depuis. J'ai ajouté un lien dans le texte. C'est intéressant de voir qu'à l'époque (2001-2002), Google communiquait encore sur ces aspects. Maintenant c'est le blackout total. Les marketoïdes ont manifestement pris le pouvoir chez Gg.

09 février, 2005 08:22  
Blogger Jean Véronis a écrit...

Sur les liens sortants : il est à peu près certain que l'algorithme initial du PR a été affiné. Je ne crois pas qu'il ait été abandonné (cela impliquerait une refonte totale de l'architecture et du soft, qui n'a justement pas pour l'instant été faite chez Gg et c'est bien son problème majeur). Mais les paramètres ont certainement été fortement corrigés. De très nombreux commentateurs ont fait remarquer depuis au moins 2001, que les liens sortants contribuaient à la qualité des sites, et du Web dans son ensemble, et qu'il n'était pas normal que, comme dans la version initiale du PR, ils entraînent une diminution de celui-ci. Il est donc fortement probable que leur impact négatif ait été diminué, voire supprimé. Certains disent effectivement qu'ils pourraient désormais avoir un effet positif. Je préfère ne pas l'affirmer sans en avoir de preuve (il faudrait faire un certains nombre de tests). Une chose est certaine : Google (et Y! et MSN) utilisent le rapport de liens sortants à la taille du site pour détecter les spammeurs et les descendre dans le PR. Il est possible que cela affecte aussi des sites normaux. Les spammeurs ont d'ailleurs compris l'importance des liens sortants et on est en train d'observer de stratégie de leur part. J'ai d'ailleurs l'intention de faire un billet sur ça, mais il faudrait que les journées aient... 35h (je vais faire une manif dans ce sens) !

09 février, 2005 08:59  
Anonymous Anonyme a écrit...

Salut Jean !

Depuis le temps que je lis tes billets et me dis qu'il fallait que je laisse des commentaires, je n'ai pas eu vraiment le temps... surtout que tu postes régulièrement des articles intéressants :-)

Je suis d'accord avec ton article dans l'ensemble, c'est une piste très intéressante. Il est évident que la partie B de l'index de Google existe, elle est parfois visible avec des requêtes du type site: mais pas avec des requêtes "normales".

Par contre dans un commentaire tu dis que (d'après la formule d'origine du PR) les liens sortants font baisser le PR de la page faisant les liens, alors que ce n'est pas le cas. Ajouter des liens externes fait moins de PR distribué sur les autres pages internes mais c'est tout.

A bientôt sûrement pour d'autres commentaires, ici ou sur WRI ou sur mon blog www.prweaver.fr/blog/

Olivier Duffez

09 février, 2005 11:55  
Blogger Jean Véronis a écrit...

Bonjour Olivier, et merci de cette remarque. Voilà ce qui se passe quand on répond trop vite aux commentaires sans bien relire ses phrases (et des commentaires j'en ai eu un paquet sur ce billet, y compris par mail!). Je ne crois pas avoir dit que les liens sortants faisaient baisser le PR de la page qui les contient, mais visiblement ma phrase ne devait pas être bien claire. La multiplication des liens sortants affaibli(ssai)t effectivement la propagation du PR sur les autres pages, ce qui semble dommage.

09 février, 2005 12:40  
Anonymous Anonyme a écrit...

ce passionant article me donne enfin une explication aux résultats parfois étonnant des ce moteur de recherche.
Je m'explique : lors d'une recherche sur des mots 'exotiques'(surtout le nom de fonction informatique) google m'indique 3 pages de résultats. Lors de la consulation effectives de ces pages, souvent, la troisième page diparaît, et la seconde contient fort peu de liens.

14 février, 2005 10:23  
Anonymous Anonyme a écrit...

Salut,

http://www.google.com/search?&q=chirac me renvoit 3,340,000 résultats, et parfois seulement 2,070,000...

Est-ce qu'il ne pourrait pas y avoir un problème de synchronisation des bases de données de Google? Et selon le load balancing, on est renvoyé vers telle ou telle base mirroir, plus ou moins mise à jour...?

Enfin je dis ça comme ça, j'ai pas testé en profondeur... mais si c'est le cas, vos résultats pourraient être assez incertains...

Cyao.

(Désolé, j'ai pas lu en détail les commentaires, si quelqu'un en parlait déjà ^_^)

14 février, 2005 11:32  
Blogger Jean Véronis a écrit...

Jusqu'à présent les fluctuations étaient minimes. Une telle différence me surprend, et effectivement en testant les différents data centers, je vois qu'il y en a un qui retourne un nombre beaucoup plus faible de résultat (les autres retournent toujours 3 millions et des poussières).

http://216.239.53.104 retourne seulement 2 020 000 pages, c'est-à-dire à peu près le nombre que vous indiquez, et qui correspond au nombre vrai de pages indexées selon mon hypothèse.

C'est nouveau. Changement en cours chez Google? Je sais qu'ils sont au courant de mes études et que ça a fait pas mal de bruit dans le Googleplex. A suivre...

14 février, 2005 11:50  
Anonymous Anonyme a écrit...

Je ne suis pas d'accord, sur au moins deux points :

- quand tu cherches "chirac chirac", google te renvoie les pages qui contiennent (au moins) deux occurences du mot "chirac".

- le nombre de pages trouvées qui est renvoyé par google est une estimation très grossière du nombre réel de page. Il suffit d'aller à la fin des pages renvoyées et de voir que le chiffre réel est plus faible.

14 février, 2005 18:01  
Blogger Jean Véronis a écrit...

Je ne pense pas que la requête X X retourne les pages où X apparaît deux fois. Pour le vérifier il suffit de taper un mot qui apparaît avec une fréquence très faible, comme numérité numérité. Vous verrez que les pages ne contiennent pas nécessairement deux occurences du mot. Cela n'expliquerait d'ailleurs pas le cas de X OR Y.

Sur la question de l'approximation, lorsqu'il s'agit d'une perte de moitié, alors effectivement elle est bien grossière...

14 février, 2005 19:09  
Anonymous Anonyme a écrit...

gagné ! :)

15 février, 2005 00:37  
Anonymous Anonyme a écrit...

pour eric B. -> "antilogie"
pages france : 198
francophone : 296
web : 846

youpi !!

15 février, 2005 00:45  
Anonymous Anonyme a écrit...

> Je ne pense pas que la requête X X retourne les pages où X apparaît deux fois.

Au risque de vous contredire, je vous confirme que X AND X doit effectivement retourner les pages où le terme est présent 2 fois. Vous savez, il me semble avoir entendu ça un jour, en cours de LOGIQUE BOOLEENNE... et Google fait bien un lien ET entre les mots d'une requête, comme expliqué dans l'aide sur le site.

Ensuite le fait qu'aucune page au monde ne contienne en double votre terme "numérité" et qu'en conséquence Google décide de passer en recherche terme à terme ne devrait pas induire votre réflexion en erreur : ce n'est là qu'une commodité pour éviter d'avoir à taper la recherche mot à mot manuellement. Vous pourriez remarquer que Yahoo a la même démarche :
http://fr.search.yahoo.com/search?p=num%E9rit%E9+num%E9rit%E9
et ce même si, on est bien d'accord, ce résultat est faux en sens logique puisqu'on a demandé le mot 2 fois.

Et si vous n'êtes pas convaincu, essayer d'autres recherches de mot doubles, dont par exemple celle-ci :
http://www.google.com/search?q=hop
puis
http://www.google.com/search?q=hop+hop
et vous aurez peut-être quelques réponses quant à votre "analyse" à propos de ces pages que vous croyez manquantes.

Cordialement,

Ame Nomade

15 février, 2005 13:30  
Blogger Jean Véronis a écrit...

Bah... qui peut-être sûr de ce que font les moteurs de toutes façons, par les temps qui courent ? (et c'est bien le problème).

Mais il y a un élément de plus qu'il faut prendre en compte. Dans le classement des résulats sur un requête X Y Z sans accents, Google donne une pondération importante aux résultats qui contiennent exactement la chaîne "X Y Z", comme si on avait tapé avec les guillemets (ceci parce que de nombreux utilisateurs ne maîtrisent pas la syntaxe avancée). Donc chirac chirac renvoie en premier les pages qui contiennent deux occurrences consécutives du mot. Mais pas plus au total...

Mon billet de ce jour illustre ça de façon assez cocasse ;-)

15 février, 2005 13:43  
Blogger J2J2 a écrit...

Quelques indices dans mon billet du jour "Brève - Retour vers le Passé..." confirmeraient l'existence des deux bases...

25 février, 2005 14:09  
Anonymous Anonyme a écrit...

Personnellement, le fait qu'une recherche sur un terme retourne moins d'enregistrements que la même recherche sur 2 fois le même terme ("Chirac" vs "Chirac Chirac") ne me choque pas plus que celà.
La recherche sur le terme seul peut très bien retourner l'ensemble des pages citant au moins une fois ce terme.
La recherche avec deux fois le même terme peut très bien retourner l'ensemble des pages où le poids de ce terme est plus important qu'un certain seuil.
Ainsi sur les (par ex.) 3 200 000 pages citant "Chirac", il pourrait y en avoir 1 200 000 qui ne font que citer le terme qu'une fois. Une recherche simple retourne toutes les pages, mais une recherche en doublant le terme dans la recherche peut ne retourner que les pages où le terme Chirac apparait X fois avec X > 1.
Qu'en pensez vous ?
Après ce qui m'étonne plus c'est que (sur le test que je viens de faire) :
"Chirac" retourne X pages
"Chirac Chirac" retourne Y pages avec Y < X
"Chirac Chirac Chirac" retourne Z pages avec Z > Y !
"Chirac Chirac Chirac Chirac" retourne à nouveau Y pages.
Là j'avoue je suis bluffé ;)

14 avril, 2005 21:32  
Anonymous Anonyme a écrit...

> Mystic 777 : une autre façon de voir les choses est qu'un pays ne sera cité que dans le cadre de dispositions particulières à ce pays, qui modifient les dispositions générales pour lesquelles il n'est pas nécessaire de dire qu'elles s'appliquent à tous les pays nommément... ce qui revient à dire : le traité constitutionnel est suffisamment proche de ce que souhaitait la France que celle-ce n'a pas besoin de bénéficier de clauses particulières.
Ce qui correspond aux avis de beaucoup de pays européens : "ce traité est d'inspiration française".

31 mai, 2005 18:19  
Anonymous Anonyme a écrit...

Merci beaucoup pour toutes ces informations, c' est excellent.

27 juillet, 2005 08:03  
Anonymous Anonyme a écrit...

-yo

18 août, 2005 21:52  
Anonymous Anonyme a écrit...

Cher Monsieur, votre étude est interessante, mais il lui manque un élément tout simple : l'analyse des weblogs des sites référencés par Google, la mise en évidence des requêtes des 'bots Google et des pages réellement indexées, pour enfin finir sur les requêtes des internautes partant de Google et arrivant sur ces même sites. Peut-être votre vision statistique eut été enrichie d'une manière moins empirique. Enfin, entre autres méthodes utilisées par les moteurs, je vous renvois à l'hyper-searching, concept mis au point par le MIT dans les 90's, dont un article du Sciam dans les mêmes années explique le principe (Scientific American, faire une recherche sur leur site, mon gros carton de revue étant haut perché ...!). je crois que Yahoo! utilise cette méthode, ceci expliquerait peut-être cela.
Votre étude est néanmoins interessante et enrichissante, mais il semble que dans l'ensemble les moteurs de recherche fassent à peu près leur boulot. Vos critiques sont néanmoins fort constructives. A mon sens, fréquentation et utilisation d'un moteur de recherche devront-ils répondre à un une réalité objective, aux besoins subjectifs des utilisateurs préférant peut-être ceci à cela, ou à des exigences commerciales ? Dans un monde où l'information demeure le monopole d'une dixaine de pays (http://www.ipwalk.com/), je doute dans tous les cas d'une objectivité globale et humaniste. Merci, bien à vous, cdt.

01 décembre, 2005 17:22  
Anonymous Anonyme a écrit...

Bonjour,

Il fut un temps où, avec Altavista, on pouvait obtenir assez rapidement un page pertinente. Ensuite Google est arrivé et les résultats ont d'abord été d'aussi bonne qualité mais aussi avec plus de choix...

Actuellement il est très facile de mettre en défaut ce moteur. Au-delà de 5 ou 6 mots on voit très facilement le nombre de pages qui augmente lorsque pourtant on réduit les possibilités.
Voici un exemple qui vient de m'arriver et qui m'a conduit à chercher des explications, d'où ma lecture de la présente.

Ayant enregistré une émission sur le vin sur France2, en décembre 2005, mais en ayant manqué le titre, j'ai voulu le retrouver pour l'inscrire. Je passe sur le moteur de France 2 qui est incapable de trouver quoi que ce soit...

Sur Google je saisi ceci :

émission france2 vin décembre 2005 : 20300 pages.

J'ajoute donc "raisin" pour réduire le choix :
émission france2 vin décembre 2005 raisin :
369 pages, encore trop...

Comme il s'agit de l'émission présentée par François de Closets, à caractère scientifique, j'ajoute encore le mot "science" :

émission france2 vin décembre 2005 raisin science : 423 pages !

Voilà maintenant que cela remonte ;-)).
Un tel moteur me semble donc inutilisable en mode avancé, la logique n'étant pas respectée...
Il y a environ un an j'ai signalé ce phénomène à Google, qui m'a répondu qu'ils connaissaient le problème et travaillaient dessus... Je suppose que ce sont surtout des commerciaux qui s'en occupent... Ce n'est quand même pas compliqué, dans une même session, de comprendre qu'un utilisateur qui ajoute mot vise à réduire le choix... N'importe quel programmeur sait faire ça.

Dégoûté, je tente un truc fou, faire passer le mot "science" en début de requète, ce qui devrait donner la même chose, bien sûr :

science émission france2 vin décembre 2005 raisin : 437 pages au lieu de 423. C'est vraiment n'importe quoi !

Il me semble quand même qu'il pourrait y avoir dans le mode avancé un réglage qui permettrait un tri classique pur et dur...

J'ai fait un tour chez Altavista : seulement deux pages, sans intérêt.

A l'heure où j'écris je n'ai toujours pas mon titre... J'ai même retrouvé le nom de l'émission, "Les grandes énigmes de la science", mais sans plus...

JeanPhi

14 février, 2006 16:20  
Anonymous Anonyme a écrit...

Je ne comprends pas trop les critiques de certains commentaires de la démarche Jean Veronis.
Qu'a t'il voulu démontrer avant tout ?
Qu'on ne pouvait se fier au nombre de pages retournée par google.
Et que l'outil très précieux pour lui de recherche avec des opérations booléenne sur les mots ne fonctionnait pas avec google.
Et j'estime qu'il a parfaitement démontré tout cela.
Ensuite il a tenté de calculer l'indexage réel ce qui n'est pas évident vu la stratégie de google.
Là les commentaire on tous montré que on ne pouvait vraiment pas utiliser google pour estimer la fréquence d'un mot sur la toile d'où l'utilisation de doc.com pour ses algorythmes.

27 avril, 2006 11:04  
Anonymous Anonyme a écrit...

Bonjour et merci de l'article,
Meme problème avec les guillements dans google ?
Exemple :
le premier cri : 2 310 000 résultats
"le premier cri" : 2 350 000 résultats

01 novembre, 2007 09:24  
Blogger Jean Véronis a écrit...

Non, dans ce cas, la petite différence peut se mettre sur le compte des approximations lors du calcul. Car Google ne fait pas le compte exhaustif des résultats pour une requête complexe comme "premier cri", avec ou sans guillemets. Il examine le début des résultats retournés pour "premier" et pour "cri", et extrapole en conséquence.

01 novembre, 2007 09:29  
Anonymous Anonyme a écrit...

Bonjour,
comme je n'aime pas être anonyme mais que je n'ai pas de compte,je me présente en 2 secondes : David Hervé Bibliothécaire à Pau.
Je pense que votre conclusion sur l'utilisation redondante d'un terme X AND X pour avoir la vrai taille de l'index n'est pas juste car si on rajoute des AND: X AND X AND X, j'ai constaté qu'a chaque ajout le nombre de pages indexés diminuait. Ce que moi je conclue c'est que Google n'utilise pas une logique boolènne puremais qu'il doit la mixer avec autre chose. J'ai fait le même test avec Exalead, le nombre de pages est identique qu'on fasse X ou X AND X
(mot utilisé: chien)
Merci pour votre article

12 février, 2008 09:09  
Anonymous Anonyme a écrit...

Si vous n'avez rien contre les commentaires tardifs, une explication plus probable est donnée par l'étude de la stratégie de recherche d'Ebay. Lorsqu'on n'utilise pas de connecteur logique (Chirac), Google étend la recherche aux variantes - inflexions, fautes d'orthographe courantes, etc (CHIRAC, chiRAC, chiraquien, chiraquie, chiraquisme, chiraq, chiraque, etc). Pour des raisons de performance liée à la combinatoire, cette stratégie doit être limitée lorsque la recherche inclut des connecteurs logiques (cela ferait trop de combinaisons de recherches élémentaires à poser à la base).

Il est évident qu'une recherche Google engendre plusieurs requêtes distinctes menées en parallèle sur la ou les bases de Google (recherche des variantes). La stratégie de fabrication de ces variantes relève du savoir-faire de Google et de contraintes de temps de réponse et de disponibilité.

Il n'y aurait rien d'étonnant à ce que "Chirac" se décline en un nombre de requêtes supérieur pour Google à "Chirac OU Sarkozy", puisque la première demande est hautement plus fréquente (et donc plus soignée en termes de recherche de variantes) que la seconde. Et donc qu'elle produise plus de résultats.

J'ai observé la même stratégie sur Ebay. La recherche de "billet train (paris OU rennes)" donne sur Ebay moins de résultats que "billet train paris" parce qu'un objet dénommé "2 BILLETS DE TRAIN PARIS" (avec billets au pluriel) est retourné par la seconde recherche mais pas par la première. Il y a sûrement des raisons de performance pour lesquelles Ebay recherche les variantes dans le second cas mais pas dans le premier, mais en tout cas, cela montre qu'il faut prendre des précautions lorsqu'on interprète le nombre des résultats retourné par un moteur de recherche comme vous le faites.

21 avril, 2010 14:24  
Blogger Jean Véronis a écrit...

Bien sûr ! il faut toujours être très prudents !

Je ne crois pas, néanmoins, que ce soit l'explication, parce qu'à l'époque de ce billet (2005), Google ne faisait pas d'extension aux variantes (inflexions, etc.). C'est une addition récente (surtout pour le français).

21 avril, 2010 14:28  

Enregistrer un commentaire