Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, octobre 03, 2005

Blogs: Les derniers ne seront jamais les premiers



Le site Technorati propose un classement des blogs en fonction de leur popularité. La mesure utilisée est simple: Technorati prend en compte le nombre de sites qui pointent vers le blog à évaluer (et non le nombre de liens), dans les six derniers mois. Je vois ainsi que Technologies du Langage est classé 4724ème avec 655 liens provenant de 210 sites différents (c'est ce dernier chiffre qui est pris en compte dans le classement).



Pas mal pour l'ego! 4724 sur les 18,7 millions de blogs recensés par Technorati à ce jour, ça n'est pas si mal! D'autant que la disproportion entre langues fait que les blogs francophones sont défavorisés (oui, d'accord, celui-ci est un peu bilingue). Le premier blog francophone me semble être Standblog (197ème) [merci de me corriger le cas échéant]. Le Meur n'est que 694ème. Aucun blog francophone n'apparaît dans le Top 100.

J'ai regardé plus en détail comment se présentait la relation entre le rang et le nombre de sites référents, en faisant un sondage sur une centaine de blogs qui couvrent toute la gamme du classement. Technorati semble un peu buggé: le rang est parfois mentionné, parfois pas, mais en utilisant à la fois l'interface Web et l'API, j'ai réussi à avoir une indication de rang pour la plupart d'entre eux. Comme on pouvait s'y attendre, la relation suit approximativement une "loi de puissance", c'est-à-dire que si on reporte les rangs sur un axe, le nombre de sites sur un autre, le tout en coordonnées logarithmiques, on obtient grosso modo une droite:


Ce type d'organisation se retrouve dans un grand nombre de domaines, qui n'ont pas grand chose à voir entre eux, comme le vocabulaire d'un texte (c'est la fameuse loi de Zipf, à laquelle j'ai fait allusion très brièvement à propos du spam, mais sur laquelle il faudra certainement que je revienne), les relations sociales, la structure physique de l'internet, ou l'organisation hypertexte du Web. C'est si surprenant qu'on en a fait des livres...

Que les blogs suivent ce type de loi n'a donc rien d'anormal, mais il est intéressant de noter que la courbe n'est linéaire que dans sa partie supérieure (ligne rose). A partir des rangs 5000 à 10 000, elle s'affaisse tout doucement et prend une allure parabolique (ligne bleue), dérogeant ainsi progressivement à la loi de puissance. Il y a en quelque sorte "trop" de blogs qui ont peu de citations. On voit très probablement à l'oeuvre (à moins qu'il ne s'agisse d'un bug grossier de Technorati) l'invasion des spams ou "splogs", dont on sait qu'ils constituent une part très importante de la blogosphère (Philip Lensenn en comptait récemment jusqu'à 60% sur Blogger -- voir ici). Il est à peu près impossible (et en tous cas trop coûteux) pour des spammeurs d'avoir des centaines de sites référents, mais les splogs sans citations ou avec un tout petit nombre de citations sont légion (il suffit de taper des mots-clés comme "Viagra" ou "Babe" dans Technorati pour s'en convaincre). Ce sont certainement eux qui tirent la courbe vers le bas.

Splogs ou pas, la "loi de puissance" en question fait le désespoir des blogueurs: elle signifie qu'un tout petit nombre de blogs accapare la majorité des citations, tandis que l'immense majorité des blogs n'est citée (et peut-être lue) par personne ou presque... En fait, à partir du rang 777 745, les blogs ne sont plus cités qu'une fois. Évidemment il doit y avoir beaucoup d'ex aequo, et Technorati ne donne pas de rang pour les blogs qui ne sont pas cités du tout. On peut toutefois faire une estimation à partir des 10 derniers rangs connus:



En extrapolant la courbe, on peut estimer à environ 460 000 le nombre de blogs ex aequo cités par un seul site. En ajoutant ça aux 777 744 qui précèdent, on obtient une estimation d'environ 1 235 000 blogs qui sont cités au moins par un site. Cela veut dire que17,5 millions de blogs ne sont cités par personne, soit plus de 93% d'entre eux... Sont-ils lus? Beaucoup d'entre eux sont certainement du spam, comme je l'ai dit précédemment. D'autres sont des blogs qui viennent d'être créés. D'autres sont des blogs sans intérêt qui n'auront vraisemblablement aucune vie future.

Quelques-uns (combien?) grimperont la difficile échelle du classement... Peut-être les retrouvera-t-on dans le Top 100 un jour ou l'autre, mais il vaut mieux que leurs auteurs ne rêvent pas! Technorati a, à juste titre, récemment adopté une limite de six mois pour le calcul des sites référents; sans limite temporelle, un nouveau site n'a pratiquement aucune chance d'apparaître haut dans le classement, par la simple inertie des "gros" déjà en place. Même avec cette limite, en fait, les chances sont quasi nulles. Des cas comme celui du blog de Michael Barnett (interdictor) qui est arrivé 90ème en quelques mois sont tout à fait exceptionnels et il faut des événements planétaires pour remonter aussi violemment la pente (en l'occurrence la couverture de l'ouragan Katarina) -- à noter qu'interdictor est déjà redescendu au 100ème rang (la liste donnée par Technorati n'est pas à jour).

Pour être dans le Top 100, il faut (à l'heure actuelle) être cité par 1973 sites. Ça n'a l'air de rien, mais ça n'est pas facile (puisque justement 100 blogs seulement y sont arrivés ;-). Le tableau ci-dessous donne le nombre de sites référents qu'il faut avoir pour être dans le Top 100, 1000, etc. :

TopSites référents
1001973
500817
1000552
5000200
10000120
10000020

O rage, ô désespoir. Même si le nombre de sites qui parlent de Technologies du langage doublait (mes chers alliés, allez-y, liez!), ce blog ne passerait jamais qu'au 1600ème rang mondial. Et en plus, comme ça ne se fera pas du jour au lendemain, les "gros" auront encore plus de citations, et les frontières auront reculé. Il faudrait un ouragan dans les TIC pour gagner le Top 100 ou même le Top 1000... Secouer les puces à Google ne suffira jamais.

Snif. Je vais faire du pipol.

Libellés :


14 Commentaires:

Blogger J2J2 a écrit...

Jean, ce n'est tout de même pas la recherche de popularité qui vous fait bloguer tout de même?
;-)

03 octobre, 2005 19:26  
Blogger Jean Véronis a écrit...

Non, si je recherchais la popularité il faudrait que je change de métier! Mais ça fait du bien tout de même de voir que son travail est apprécié --quite à se prendre quelques bonnes critiques de temps à autre: les commentateurs ne sont pas toujours tendres, et ils ont raison. Ca aide à rester lucide sur soi-même et à regarder tout ça avec un peu de distance, et j'espère un peu d'humour! Il y a un lien subliminal dans mon billet vers un texte vieux de plus de deux mille ans, et qui n'a pas pris une ride...

03 octobre, 2005 19:50  
Anonymous Anonyme a écrit...

Un asymptote?

03 octobre, 2005 21:38  
Anonymous Anonyme a écrit...

Si vous tenez vraiment à la popularité, monsieur Veronis, partagez gratuitement en ligne des BDs érotiques de qualité, ajoutez-y des tonnes de commentaires "encyclopédiques" pour partager votre érudition des auteurs et des styles, et c'est ainsi que, quand j'avais un site de ce genre, y'a des années, j'avais 5000 visiteurs uniques par jour, et dans le million de pages vues mensuelles ;)

Plus sérieusement, j'ai été un peu "peiné" par un "biais" de votre article, car vous n'avez pas envisagé que certains blogs pouvaient se satisfaire pleinement de rester dans l'anonymat.

Il est normal d'aimer avoir des visiteurs, c'est sûr !

Mais j'ai l'impression que ceux tenant un blog dont la vocation n'est pas l'audience, ceux dont le blog vise un public limité à ceux auxquels on a donné soi-même l'URL, pourraient se sentir un peu "regardés de haut"...
Je pourrais rajouter un public, ceux utilisant les interfaces gratuites de blog comme architecture toute fait d'hébergement de site web perso, et dans l'univers des "sites perso", là encore on n'a pas que des affamés de stats de fréquentation :)
Alors, bah, parler de «désespoir des bloggers»...

Bon, c'était juste une remarque en passant, hein, pas méchamment, l'article était tout aussi intéressant que d'habitude :)

03 octobre, 2005 23:31  
Anonymous Anonyme a écrit...

salut jean,

j'aime aussi à ausculter le point de vue des machines, et de leurs algorithmes, pour en dévoiler quelques-uns des hoquets. technorati ne manque pas d'être aussi amusant, même si à une échelle beaucoup plus modeste, que ta victime googlienne favorite.

dans le top 100 des blogs, on trouve ce matin (dans mon fuseau, cinq heures d'avance sur le tien, soit 9h20 pour moi à l'instant) :

- le Seth's Blog à la 62e et à la 77e place avec respectivement 5 861 liens de 2 289 sites et 2 791 liens de 2 006 sites. Le premier classé est stocké ici http://sethgodin.typepad.com/seths_blog/ et le second l'est là http://sethgodin.typepad.com/ ;
- le blog du magazine Make arrive en 34e position, avec 10 632 liens venant de 3 319 sites. Pourtant, le blog n'a démarré qu'en février 2005 et n'a pas surfé sur la vague de Katrina... en revanche, il est publié par O'Reilly et joue au maximum des effets de réseau en postant dans toutes les communautés possibles : flickr, blogosphère, del.icio.us, podcasters, etc. ;
- interdictor en 83e position avec 3 372 liens provenant de 1 971 sites.

a]m[+

04 octobre, 2005 04:21  
Anonymous Anonyme a écrit...

Pour information, la courbe "quasi zipfienne" du nombre de liens entrant correspond bien à une loi dérivée de Zipf mise au point par D. Lavalette en 1996 pour calculer les "facteurs d'impact" d'articles scientifiques en fonction du nombre de références qui leur sont faites (cf. par exemple ici).

04 octobre, 2005 09:48  
Blogger Marianne a écrit...

Waoh, grâce à vous je viens de découvrir que j'ai 7 amis qui me lient, dont un(e) que je ne connais pas !! Faut que j'aille les remercier :-)

PS : ça y est vous vous êtes fait spammer à votre tour... ? :-(

04 octobre, 2005 10:05  
Blogger Loran a écrit...

Bonjour,
Technorati me parait peu fiable.
Au moins en ce qui concerne la blogosphere Francophone! On a en France un tres bon exemple avec les skyblogs.
A partir du moment ou on n'indexe pas (ou tres tres mal) les 3 Millions de skyblogs, il devient difficile de deduire quoi que ce soit...

Apparement les skyblogs sont indexes s'il sont backlinkes (par exemple http://www.technorati.com/search/decosblog.skyblog.com)
de l'exterieur, mais la structure interne de la plateforme de sky n'est pas du tout prise en compte par technorati.

Qu'elle que soit la qualité des skyblogs (sur 3 millions, quoiqu'on en dise il y en a des tres bons), ce sont tout de même des blogs.
Et, il n'y a finalement que 1794 sites qui referencent le Search Engine Blog (99eme de la liste de Technoratti).

Cordialement,

04 octobre, 2005 14:09  
Anonymous Anonyme a écrit...

Intéressant commentaire, qui rejoint des recherches universitaires US sur le sujet, souvent appliquées aux blogs politiques, et à l'analyse de "l'écosystème" des blogs.
En fait, la courbe (figure 2) suit une forme plus linéaire en descendant dans le ranking des blogs : il y a de plus en plus de blogs qui ont très peu de liens. On a ainsi un effet classique de 'long tail', avec une top-blogeoisie, souvent constituée d'acteurs anciens (mais pas toujours, certains top blogs sont assez jeunes).
Je pense à quelques exemples, dont les blogs de gawker, qui sont montés très vite dans le top100, ou TPM Café (certes créé par des blogueurs déjà dans le top100) qui ont réussi à intégrer vite les gros blogs.

J'ajoute que ces ratios vont bouger : la blogosphère croit vite en nombre, les liens entre blogs encore plus vite (il y a plus d'un lien sortant par blog). Il faudra dans quelques mois nettement plus de 2000 liens pour entrer dans le top100.

versac (à peine une petite centaine de liens)

04 octobre, 2005 15:14  
Anonymous Anonyme a écrit...

Au sujet du premier blog francophone, j'attire votre attention sur Kiss in the dark, actuellement 111ème chez Technorati.

OK, neuro blogue en Français et en Anglais, OK les liens vers son blog renvoyés par Technorati pointent pour l'immense majorité vers ses thèmes Wordpress, m'enfin techniquement c'est un authentique blog francophone très bien classé ^^

Saiko, même pas dix liens ;)

04 octobre, 2005 19:20  
Blogger Jean Véronis a écrit...

Saiko> Merci pour le lien vers Kiss in the dark. Je ne connaissais pas. Comme quoi la popularité c'est relatif. Evidemment l'aspect bilingue fausse un peu les choses (comme pour AixTal, d'ailleurs)... Soit dit en passatn j'aime bien la présentation de Kiss in the Dark avec les petits encadrés pour la traduction... J'ai opté pour un système de billets séparés, mais je ne suis pas totalement satisfait.

04 octobre, 2005 19:33  
Blogger Jean Véronis a écrit...

Marianne> PS : ça y est vous vous êtes fait spammer à votre tour... ?

Oui...

Tout a basculé quand Blogger a mis en place son système anti-splog ici). Jusque là, les spams dans les commentaires étaient rarissimes, et je n'avais pas mis le "captcha" qui est quand même un peu gonflant! Mais le filtrage des spams a eu un effet pervers: les spammeurs voyant leur efforts anéantis sur les faux blogs se sont apparemment rabattus sur les commentaires dans les vrais blogs. Du jour au lendemain j'ai été envahi...

Alors voilà, maintenant il faut se tordre les yeux et taper "yerqwj", "retjgoiuuh", etc. à chaque commentaire!

04 octobre, 2005 20:34  
Blogger VinZ a écrit...

Ah c'est donc ça ? J'ai constaté l'arrivée sur mon blog perso et sur celui d'une amie (tous deux hébergés chez blogger) ces commentaires spams. Souvent, dans les minutes qui suivent la publication d'un billet, j'ai droit à un commentaire de spam... Ils utilisent sûrement pour cela les sites qui présentent les blogs mis à jour récemment... du genre weblogs.com...

11 octobre, 2005 17:23  
Anonymous Anonyme a écrit...

Si cela t'intéresse technorati et Eldeman ont fait un classement top 100 des bloggueurs francophones les plus influents !

http://imortality.bleublog.ch/autres/technorati-edelman.html

J'ai mis le lien du top100 sur mon blog !
Si cela t'intéresse tu peux toujours faire un tour !
Peut-être te trouveras-tu dans le top100 !

30 octobre, 2006 11:57  

Enregistrer un commentaire