Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, février 02, 2005

Web: Atsuce de postiionnement

Quelle est la requête Google la plus fréquente qui renvoie sur ce blog ? Réponse :
infractus
Apparemment les gens sont drôlement omnubilés par l'infractus (et moins par la langue française). Et paf, Techonlogies du Lagnage sort premier. Quand je pense que les experts en positionnement font des prouesses quotidiennes pour arriver à trouver les bons mots-clés et que les spammeurs font des contorsions planétaires pour nous renvoyer vers leurs sites, j'en suis tout secoué de rire. Pour ceux qui prennent le blog en route, ce positionnement excellent est dû au billet que j'avais écrit il y a quelque temps à propos de la métathèse... Le blog se positionne aussi très bien pour génycologue (on reste dans le médical), et pour carapaçon (si, si, ça peut se vendre). Il suffit de repérer les fautes les plus fréquentes que les gens font et mettre les mot-clés mal orthographiés sur sa page... La perversité des spammeurs est telle qu'ils ont dû déjà y penser.

Mais trêve de plaisanteries, le blog sort aussi premier sur un mot-clé tout à fait sérieux, qui draîne aussi tout un tas de requêtes chaque jour :
dictée vocale
Je devrais être content de ce bon résultat, mais j'en suis plutôt affligé. Qu'ai-je fait pour réaliser un tel carton ? Deux malheureux petits billets ici et , mais ce site n'est quand même pas un site de référence sur le sujet ! L'internaute qui s'y voit rabattu doit rire un instant, mais aurait peut-être préféré accéder à de vrais sites qui expliquent la technologie, vendent des logiciels de dictée vocale, des téléphones qui en sont équipés, que sais-je ? Les sites ne manquent pas, aussi bien chez les centres de recherche que les industriels. Il y a quand même 6780 sites francophones qui repondent à la requête dictée vocale.

Alors, quelle est l'explication ? Mon blog n'a qu'un malheureux petit PageRank de 4/10, ce qui est mieux que rien, mais pas terrible non plus. Pas de quoi gagner la compétition contre Samsung, Nokia, Dragon Dictate et les autres... Ah oui, pour les non-spécialistes, le PageRank est la mesure que calcule Google pour donner un poids à chaque site, et les faire remonter dans le classement. En gros (mais il y a plus d'explications ici), le PageRank prend en compte le nombre de liens entrant vers un site, et le poids des sites qui envoient ces liens. Plus j'ai de liens pointant vers moi, et plus les sites qui m'aiment sont puissants, plus je monte dans le baromètre. Plein de gens se posent des questions et ont commencé à se dire que Google utilise de moins en moins le PageRank, et en tous cas le combine avec d'autres heuristiques obscures.

Ce PageRank de 4/10 me trouble. Les meilleurs sites français, comme Le Monde, semblent atteindre un maximum de 8 (les experts pourront rectifier si je me trompe), 9 semble être réservé à des mastodontes (la Maison Blanche), et 10 à Dieu, Godgle le père.... Donc, 4 n'est déjà pas si mal, et suffit apparemment à détrôner Dragon Dictate et les autres sur une requête qui est au centre de leur business... Et le blog se positionne aussi très bien sur d'autres requêtes (ces chiffres peuvent évidemment varier à tout moment) : autosuggestion arrive 2ème sur 6990, siffler, 2ème aussi sur 61700. Paradoxalement, "technologies du langage", n'est que 5ème sur 866, mais c'est quand même sur le premier écran de résultats. Plus surprenant, le blog est 51ème pour la requête cerveau... mais, sur 729 000 sites ! Je crois qu'il y a des tas de sites qui méritent d'être classés devant sur le thème du cerveau, qui n'est vraiment pas central sur ce blog...

Qu'ai-je fait pour en arriver là ? Rien justement (pas de spamming, promis juré), et c'est cela qui m'inquiète. Il n'y a pas beaucoup de liens qui pointent vers Technologies du Langage. Une petite poignée de sites, assez mineurs eux-mêmes. Et la théorie du bac à sable (sandbox) dans laquelle Google placerait les nouveaux sites en quarantaine pendants six mois pour éviter le spam, ne semble pas tenir. Par ailleurs, le blog commence à avoir pas mal de visites, et c'est très bien, mais à ma connaissance Google n'utilise pas cette information.

A moins que... Google a acheté Blogger, le système qui héberge ce blog. Ca explique déjà que les nouveaux billets rejoignent très rapidement l'index, en 24 à 48 heures (c'est remarquable, il suffit de comparer avec Yahoo...). Google donnerait-il un petit bonus aux blogs de Blogger ? Google utiliserait-il aussi le nombre de visites, que lui fournirait Blogger ? Je n'ai pas de réponse.

En tous cas, tout cela est très inquiétant. Le web est en train de devenir le dépositaire de la connaissance mondiale, et c'est assez effrayant de voir que l'accès à cette connaissance est contrôlé par quelques multinationales qui concontent des brouets numériques obscurs. Que dirions-nous, en entrant dans une bibliothèque publique, si tout l'accès aux livres était contrôlé par une firme financée par la publicité, qui nous donnerait accès aux livres de son choix à partir de nos mots-clés ? Les livres qui diraient du mal de cette firme, de ses sponsors, ou des gouvernements qui la protègent, serait-ils proposés prioritairement aux lecteurs ? Mais bien sûr Google n'est pas diabolique (no evil) , pas plus que Yahoo!, ou M$N qui vient d'entrer dans la danse. Je suis simplement parano.


Post-scriptum


9 fév - Une suite intéressante sur Urfist Info. Ce blog consacré à l'actualité des Sciences de l'Information est dans le "top ten" pour "Image satellite", sur des millions de pages, alors qu'il n'a utilisé ce terme qu'exceptionnellement. Le billet fait état des mêmes préoccupations que les miennes :
[...] c'est moins la question de la fiabilité des algorithmes de ces outils qui est en question que celle d'une écologie de l'information remise en question par des situations de monopole.

Lire le billet...

15 Commentaires:

Blogger Loran a écrit...

:o)

moi aussi je le deviens....
pour info MS a bel et bien disparu de l index internationnal sur la
recherche sur "the" ....

02 février, 2005 12:46  
Blogger Jean Véronis a écrit...

Vélociraptor contre Tyrannosaurus Rex... Tant qu'ils s'entretuent, c'est plutôt bon pour nous !

02 février, 2005 13:30  
Blogger J2J2 a écrit...

Ne s'agirait-il pas tout simplement d'un effet de bord du PageRank?

Je m'explique:

- Votre Blog est hébergé sur Blogger.
- Donc Blogger contient des liens vers vos billet.
- Or Blogger est je suppose un site qui a un fort poids dans Google du fait du nombre important de sites qui pointent vers lui (peut-être aussi, je vous l'accorde par une pondération forcée!).

Par conséquent, vos billet ont nécessairement un PageRank important du fait qu'ils sont hébergés par Blogger.

Un test intéressant serait de faire une copie du contenu de votre blog sur un autre serveur de blogs.
Et ensuite comparer les résultats.
Puisque les liens vers votre Blog Technologies du Langage ne sont qu'une petite poignée de sites assez mineurs eux même, la différence de liens entre votre Blog d'origine et le Blog miroir ne devrait pas avoir d'influence sur le PageRank de Google et donc les deux sites devraient arriver aux premières places pour la requête infractus. Si ce n'est pas le cas, c'est qu'en effet, Google procède à quelques pratiques douteuses sur le PageRank...

02 février, 2005 14:03  
Blogger Jean Véronis a écrit...

Si Google n'a pas prévu cet effet de bord, alors ils sont franchement mauvais... Ou bien s'ils le laissent exprès, ça équivaut à un bonus pour leur filiale Blogger.

Je n'ai pas le courage de tout recopier, mais effectivement, l'idée est bonne. Je viens de faire un test plus simple. En appuyant sur "Next blog" dans le bandeau Blogger ci-dessus on obtient un blog aléatoire, et j'ai pu constater que de nombreux blogs ont un PR de 0. Donc, le fait d'être sur Blogger ne donne pas automatiquement un PR plus élevé. Mystère -- et c'est bien ça le problème : l'opacité.

02 février, 2005 15:48  
Anonymous Anonyme a écrit...

Et si tout simplement, être premier sous Google n'avait rien d'exceptionnel...?

Parcequ'en fait, être classé pour des mots clés ayant 6700 pages indexées dans Google c'est un peu comme... être tout seul dans Google! Rien d'anormal à être premier.

Cela serait plus inquiétant si ce blog était premier sur des requêtes donnant plus de 100.000 pages référencées. Non?

Au dela du pageRank, c'est tout simplement la structure des pages du blog qui est plus réactive que de nombreux sites, ce qui joue beaucoup plus que les backlink et autres...
D'expérience de référenceur, la réelle valeur du pageRank et des backlink ne se remarque que sur ces requêtes aux rgands nombre de pages listées.

Enfin, pour ton inquiétude sur le contrôle de l'accès à la culture mondiale par des multinationales... je te rassure : il est aisé d'avoir un PR de 5 (ce qui permet facilement de lutter avec ces multinationales en matière de référencement) avec peu de liens, le contenu importe beaucoup plus que le PR (ce qui laisse toutes ses chances aux "petis" de ce monde), et enfin Google n'a de cesse d'améliorer son algorythme et cela va dans le sens que je viens de décrire!

Mais Google n'est pas le seul, et la percée fulgurante que le moteur msn-search de microsoft est en train d'effectuer va certainement changer la donne. Et là, mauvaise nouvelle : il n'a pas l'air d'aimer les blogs, quels qu'ils soient!

02 février, 2005 18:49  
Blogger Jean Véronis a écrit...

Oui, toutes ces remarques sont pleines de bon sens. Néanmoins, un lecteur vient de me faire remarquer (je vois que j'ai lancé un jeu avec mon billet...) que le blog sort 37è avec le mot langage, sur 4 840 000 résultats ! Dieu sait que je ne suis pas le seul à parler de langage sur Internet... Je suis manisfestement trop haut par rapport à la jeunesse et à l'importance modeste de ce blog.

02 février, 2005 21:44  
Blogger Jean Véronis a écrit...

Et au moment même où je publie ce commentaire, une requête arrive pour yeux bleu, qui me met en 5ème position (3è site) sur 679 000 pages...

02 février, 2005 21:50  
Anonymous Anonyme a écrit...

Les blogs sont bien pris en compte, ceci est du a leur structure, au fait qu'ils sont souvent réactualisés et aussi au maillage de liens entre eux. Mais la precision que je veux apporter est surtout ceci : il ne faut pas assimiler le PR au positionnement des sites !
Le PR joue certainement sur la frequence d'indexation du site par googlebot, mais ca s'arrete là. Un site peut tres bien etre positionné avec un PR1. Si bcp de sites bien positionnés ont un PR elevé, c'est la consequence de la position (ils sont visibles donc connus donc on pointe vers eux) plutot que la cause...

03 février, 2005 11:53  
Blogger J2J2 a écrit...

Et si tout cela s'expliquait simplement...
Et si Google vous faisait simplement les yeux doux monsieur Véronis...

Si après avoir recruté Ben Goodger, principal développeur de Firefox, et Darin Fisher, également codeur de la fondation Mozilla, Google cherchait à recruter un spécialiste des Technologies du Langage...

Car il faut bien l'admettre, Google n'est pas très fort en technologies du langage. Il y a maintenant cinq ans que je ne suis plus directement impliqué dans les moteurs de recherche, mais en cinq ans, ils n'ont pas du tout progressé au niveau de leurs techonolgies d'indexation et de recherche: Ils sont toujours au niveau du traitement des chaines de caractères et non pas des langues, des termes, des expressions, des phrases, etc... bref tout ce fait qu'un moteur de recherche est un outil de traitement du langage...

Jean Véronis chez Google? ;-)

03 février, 2005 12:17  
Blogger Jean Véronis a écrit...

Waaaaf !!! J'avais pensé à bien des hypothèses, mais celle-là est vraiment super ! Que n'y ai-je pensé plus tôt ! Ceci étant, j'ai travaillé suffisamment longtemps aux Etats-Unis pour ne pas avoir envie d'y retourner de sitôt (ou alors il faudra beaucoup, beaucoup de $$$!).

03 février, 2005 19:46  
Anonymous Anonyme a écrit...

Le fait que les articles apparaissent sous 24-48h, c'est peut etre aussi parce que les Bots de google inondent le web de leur requetes !

Ayant mis en place une galerie de photos recement, sur un site de page perso, non referencié dans le catalogue de l'hebergeur mais avec quelques liens de l'exterieur, préexistants, vers d'anciennes pages, et un système de stats sur ma galerie, j'ai été assez surpris de voir des requetes venir des bots google des la première journée de mise en ligne...

04 février, 2005 11:03  
Anonymous Anonyme a écrit...

C'est une préoccupation récurrente chez les usagers "critiques" des moteurs de recherche que les principaux portails d'accès au web, qui se comptent sur les doigts d'une main (google, yahoo, ...), n'aient aucun compte à rendre quant à leur fonctionnement. On craint un certain parti-pris, un biais dans les informations présentées... Moi aussi ça me fait sourciller, cependant je ne crois pas qu'on doive s'en étonner : on observe exactement le même phénomène avec les autres média. Y a-t-il vraiment un journal, un magazine (écrit ou autres) dont on peut dire qu'il soit vraiment objectif ? Pourquoi alors serait-ce différent sur le web ? En plus, la toile, ce n'est pas une grande bibliothèque publique : ce serait plutôt comme un journal (de plusieurs milliards de pages) financé par la pub. Or, qui prend vraiment METRO au sérieux?

- Olivier Tardif

04 février, 2005 15:58  
Anonymous Anonyme a écrit...

Allons, rions un peu... si vous êtes dans les premiers pour "vernis à ongles", ça ne semble pas marcher pour tout:

"page rank" site:blogspot.com --> 563 pages;

"page rank" véronis site:blogspot.com --> 0 page;

"page rank" site:aixtal.blogspot.com --> 0 page;

...quand on voit le nombre de billets où vous mentionnez "page rank", ça interpelle au niveau du vécu, non? Ou je n'ai pas tout compris?

15 février, 2005 10:32  
Blogger Jean Véronis a écrit...

Oui, mais attention, j'ai l'habitude d'écrire PageRank en un seul mot... Les moteurs ne sont pas encore assez malins pour recoller les morceaux.

"pagerank" site:aixtal.blogspot.com => 6 pages


Par contre sur "PageRank" (tout seul) dans les pages francophones, ce blog n'est pas dans les premiers résultats. Ca n'est que justice. Celui qui sort en premier c'est WebRankInfo, qui fait une analyse détaillée.

Mais je glisserai PageRank dans le titre d'un billet un de ces jours, et on verra ce qui se passe ;-)

15 février, 2005 10:41  
Anonymous Anonyme a écrit...

Hey Blogger, Your this post message is well received. I am just out searching for information on SEO and related and ended up on your blog. Although I'm not an avid "blogger", I have decided to save yours and come back since the information provided has substance.

10 septembre, 2005 20:37  

Enregistrer un commentaire