Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, février 14, 2005

Référencement: Drôlement verni !

Qui ne rêverait de se positionner premier sur un produit de grande consommation, susceptible de rapporter des millions ? Eh bien voilà, pour moi, c'est fait :


Les habitués de ce blog (il commence à y en avoir, merci de votre fidelité !) se rappellent peut-être que j'avais commis un billet sur les vernis à ongles et la chasse à courre... qui n'avait à voir ni avec les vernis ni avec les ongles, mais plutôt avec les stupidités des correcteurs orthographiques dans l'e-pub. A part ça, je ne crois pas avoir jamais parlé de vernis à ongles. Le hameau est tout petit, et on a un peu toujours les mêmes conversations au bistrot-épicerie-poste...

Donc, me retrouver positionné sur les vernis à ongles devant tous les sites de beauté :
les sites marchands :
et surtout (tout de même !) :
ça me les coupe (les ongles !). Les observateurs attentifs noteront que les grandes marques de produits de beauté se classent particulièrement bas (évidemment on ne peut s'empêcher de penser que cela arrange bien Google, qui peut leur proposer des liens sponsorisés à prix d'or pour qu'elles deviennent visibles...).

Alors voici une recette (gratuite) de positionnement miracle :
1. Choisissez un produit qui peut rapporter très gros, mais n'a que peu d'occurrences sur la toile.
2. Arrangez un truc avec les chinois pour en avoir du pas cher en grande quantité.
3. Ouvrez un blog chez Blogger.
4. Mettez le nom du produit en titre d'un billet.
Mais attention, mettez ce nom dans les quatre premiers mots, parce qu'au-delà, Google ne fera pas attention à vous. Je suis très déçu de voir que je ne suis vraiment pas positionné pour la chasse à courre, alors que le même billet contenait ces mots dans le titre.

En tous cas, dépêchez-vous, il reste des affaires à faire avec :
  • "rouge à lèvres" (73 600 pages)
  • "fard à paupières" (7 980 pages)
  • "cremes depilatoires" (681 pages)
Ca devient de plus en plus juteux au fur et à mesure qu'on descend dans la liste.

Conclusion : c'est n'importe quoi, et je n'aimerai pas être référenceur par les temps qui courrent.
*
* *
Un peu plus sérieurement : certains diront que "vernis à ongles" n'a que 52 200 occurrences sur le Net (enfin... sur Google -- lapsus révélateur), et qu'il est plus facile de se positionner correctement sur quelques dizaines de milliers de pages que sur plusieurs millions. C'est peut-être vrai (encore que...), mais je remarque que de très nombreux produits de grande consommation ont des fréquences faibles. Il y en a des exemples ci-dessus, mais vous pouvez faire d'autres essais, vous serez surpris. Les mots les plus fréquents ne sont peut être pas ceux qui correspondent à du moyen et petit business. Téléphones et télévisions ont plusieurs millions d'occurrences, mais qui peut raisonnablement attaquer ces marchés-là ?

Malgré la satisfaction qu'expriment les utilisateurs (voir rapport Pew), les moteurs de recherche ne fonctionnent pas de façon optimale, les experts le savent bien, et même les concepteurs l'avouent (pour Gregory Salinger, le directeur de MSN France, "une recherche sur deux ne donne pas de bons résultats"). Il n'est pas normal qu'un petit blog de rien du tout se positionne à l'aide d'un billet totalement anecdotique au-dessus de grandes marques internationales sur des produits qui sont au centre même de leur business. Bien sûr, on voit ici en oeuvre le coup de pouce de Google pour sa filiale Blogger, qui devient plus qu'un simple soupçon. On y voit aussi l'effet de la pondération irraisonnable que donne Google aux mots du titre. Mais au-delà de tout ça, on bute sur les limites des principes actuels d'indexaxtion.

D'une manière ou d'une autre, les moteurs actuels classent les résultats par notoriété. L'algorithme du PageRank, utilisé par Google dès 1999 est l'illustration parfaite de ce principe de notoriété. Pour faire simple, plus un site reçoit de liens et plus ces liens proviennent de sites importants, plus il monte dans les résultats. Les moteurs, Google en tête, ont dû aménager cette logique, car elle était trop vulnérable aux attaques de spammeurs, et on ne sait plus très bien quels sont les brouets numériques obscurs que concoctent les moteurs à l'heure actuelle pour classer les résultats, mais le principe de base n'a certainement pas fondamentalement changé.

Le problème avec le principe de notoriété, est qu'un site peut avoir une grande visibilité dans un certain domaine, sans pour autant être pertinent pour toutes les requêtes. Le vernis à ongles en donne un bon exemple. A supposer que ce blog ait une mini-notoriété dans le domaine du langage, du Web, etc., cela ne lui donne a priori aucune prétention dans le domaine des produits de beauté.

On voit mal comment remplacer le principe de notoriété, qui restera sans doute longtemps, sous une forme ou une autre, la base des classements de résultats. Cependant, il devrait être pondéré par une analyse minimale des sites. A l'heure actuelle, les critères internes aux sites sont extrêmement minimes (pondération du titre, évaluation globale de la quantité de contenu pour combattre les spams, par exemple). Bien sûr, des traitements sémantiques très compliqués peuvent être envisagés, mais des outils de statistique lexicale extrêmement rustiques pourraient déjà permettre une amélioration considérable des résultats. Sur ce blog par exemple, un classement trivial des mots par fréquence ferait immédiatement apparaître que vernis et ongles n'ont eu que des mentions marginales, et ne doivent donc pas faire remonter le site sur ces requêtes. A mon avis, c'est le traitement linguistique (même minimal) du contenu des sites qui permettra le prochain saut quantique dans l'univers des moteurs de recherche.

Or, la grande faiblesse de Google est justement son manque de chercheurs dans le domaine du traitement des langues. L'analyse des domaines de compétence de ses chercheurs à travers leur CVs et leurs publications fait apparaître une absence quasi-totale d'expertise dans ce domaine. Une telle expertise existe chez les développeurs de petits moteurs (notamment en France), mais les petits David semblent bien faibles par rapport au grand Googliath.

Le seul challenger sérieux, c'est... Microsoft, qui, lui, a des équipes de recherche extrêmement étoffées et d'une très bonne qualité sur le traitement des langues. Microsoft est parfaitement en mesure, s'il le décide, de faire le saut quantique dont je parlais ci-dessus, à relativement court terme. Des travaux sont d'ailleurs en cours. Mais la firme est connue pour son cloisonnement, sa bureaucratie, le fossé qui semble parfois impossible à combler entre ses recherches de pointe et la qualité éternellement médiocre de certains de ses logiciels, alors je ne ferais aucune prédiction. Microsoft pourrait. Le fera-t-il ?

D'une certaine manière, il vaudrait mieux que Microsoft ne devienne pas aussi le leader des moteurs de recherche. La main-mise du Léviathan informatique sur la quasi-totalité de l'accès à l'information en plus de tout ce qu'il contrôle déjà est une perspective qui a de quoi faire frémir.


Post-scriptum


23 fév - Il semblerait que Google soit en train de changer ses pondérations et qu'il fasse descendre les blogs (via LanguageLog). De fait, Technologies du langage semble avoir un peu descendu sur cette requête (et c'est logique quand même !), mais reste haut classé sur bien d'autres (et toujours premier sur infractus... A suivre !

25 fév - Ca semble se confirmer - Voir ce billet.

6 Commentaires:

Anonymous Anonyme a écrit...

Félicitation pour le contenu et l'écritue de votre Blog, qui est à la fois drolatique, analytique et très bien documenté, en particulier sur les différentes orthographes. En dépit des dysfonctionnements et des propres critères des moteurs de recherche, vous vous étonnez à de nombreuses reprises de votre PageRank élevé - mais vos lecteurs, dont je suis, y décèleront sans ambages une espièglerie, et trouvent ce PR justifié à plus d'un titre.
Quant à commenter ce dernier billet sur le référencement ("vernis à ongle"), je crois que c'est un plus grand profit si l'internaute, qui escomptait sans doute une manucure prochaine, conserve plutôt à la suite de sa requête ses doigt sur le clavier, et se consacre à la lecture de vos billets !

14 février, 2005 18:15  
Anonymous Anonyme a écrit...

"Téléphones et télévisions ont plusieurs millions d'occurrences, mais qui peut raisonnablement attaquer ces marchés-là ?"

Et pourquoi pas? En fait, un peu comme pour "vernis à ongles", il reste encore quelques secteurs où la concurence n'est pas trop rude en la matière. Pour d'autres, comme "téléphone", cela parait compliqué...
Mais tout le travail d'une bonne agence de référencement n'est-il pas aussi de compenser les faiblesses linguistiques des moteurs (et des internautes) et cela en trouvant les expressions et mots clés réellement en rapport avec le contenu d'une page et surtout avec les visiteurs ciblés? Je m'explique... J'ai travailler dernièrement sur l'optimisation et le référencement d'un site de téléphonie (vous le trouverez facilement parmis les résultats des requêtes proposées dans ce commentaire... mais je ne le siterai pas parceque ce n'est pas l'endroit pour faire de la publicité!). Travail compliqué à première vue! Mais finalement, il s'est avéré qu'être bien positionné sur des expressions tels que les marques et models de téléphones était beaucoup plus ciblé et donc rentable que des expressions laxistes comme "téléphone".
En effet, quand un internaute effectue une recherche sur le mot "téléphone", que cherche-t-il vraiment? Personne n'en sait rien en fait... Et il ne faut pas s'attendre à ce que le moteur de recherche (quel qu'il soit, bien que MSN ai fait de réel efforts en la matière, mais ce genre d'optimisation on souvent pour résultat de formater et donc d'uniformiser les résultats) le devine! Hors ce genre de requêtes (mal formulées, imprécises, indécises?...) est très fréquent, d'où le "une recherche sur deux ne donne pas de bons résultats"...
Il ne s'agit donc pas tant alors d'optimisation des moteurs que d'éducation des utilisateurs! Si vous recherchez "téléphone portable", ou "forfait téléphone" ou encore plus précisément "sagem myx5-2t", il y aura beaucoup moins de déchets dans les résultats proposés...
En conclusion, si vous ne savez pas ce que vous cherchez, ce n'est pas un problème de language qui se pose... simplement il ne faut pas demander à ce que votre moteur préféré le devine à votre place!

14 février, 2005 19:20  
Blogger Jean Véronis a écrit...

Vous avez tout à fait raison, le moteur ne peut savoir ce qu'il y a derrière certaines requêtes. Les moteurs ne tarderont pas à donner à l'internaute des possibilités de préciser sa requête. On aimerait avoir par exemple pour pizza:
* restaurants
* livraison
* recettes
Certains (petits) moteurs essaient déjà (avec plus ou moins de bonheur). C'est là que le traitement du langage intervient...

14 février, 2005 20:43  
Anonymous Anonyme a écrit...

Passionnant.

Je decouvre votre blog aujourd'hui, et c'est un réel plaisir de vous lire.
On y apprend beaucoup, en nous rappelant a l'occasion qu'il est toujours bon de s'interroger sur les outils que l'on utilise, surtout aussi massivement que dans le cas de Google.

15 février, 2005 18:11  
Anonymous Anonyme a écrit...

Petites precisions :
1) blogger n'est pas particulierement favorisé par google. j'ai des tres tres bonnes positions avec des blogs sur 20six comme sur joueb. cela tient plus de l'architecture des blogs en eux meme s'ils sont facilement positionnés qu'à une marque de fabrique precise.
2) les blogs ont toujours d'aussi bonnes positions, d'ailleurs, pas de pertes a signaler avec mes blogs mentionnés ci-dessus.
3) le classement par ordre de frequence des mots en analyse plain text avait déja ete testé par le Altavista de la vieille époque avec comme resultat de ramener des pages où le mot clé etait repeté 50 fois en blanc sur fond blanc...

28 février, 2005 12:36  
Blogger J2J2 a écrit...

Chacun son domaine de prédilection...
;-)

30 mai, 2005 12:20  

Enregistrer un commentaire