Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

vendredi, juin 26, 2009

Wikio: Plus de 100 000 blogs UK



J'ai été discret ces derniers temps. J'étais à fond sur un projet qui a requis toute mon attention : l'augmentation du nombre de blogs UK pour Wikio (www.wikio.co.uk). Le site UK est le dernier né de la série des sites Wikio (après wikio.fr, wikio.it, wikio.es, wikio.de et wikio.com), et il a toujours été un peu le parent pauvre en ce qui concerne l'étendue de ses sources. J'ai donc mis en place depuis quelques semaines des algos adaptés, et je suis heureux de vous annoncer que le site UK a dépassé 100 000 blogs cette nuit. Exactement 113 000 à l'heure où j'écris, et ce chiffre va encore augmenter dans les heures qui viennent : il y a encore pas loin de 30 000 blogs dans les tuyaux.



Si vous allez sur le site vous verrez "Live breaking news from 156920 blogs", mais c'est le nombre des blogs anglophones, et pas seulement celui des blogs UK. Le même nombre est d'ailleurs affiché sur wikio.com. Les deux sites puisent dans la même base, mais n'affichent pas les mêmes infos : c'est une question de pondérations. Le site UK affiche en priorité les news UK, et le site US affiche en priorité les news US (d'où la nécessité de localiser la source). Vous pourrez par exemple voir les différences de réactions sur des événements internationaux, que ce soit la situation en Iran, ou la mort de Michael Jackson : ce n'est pas inintéressant !

C'est hélas très compliqué à faire dans la pratique ! Il est extrêmement difficile pour des machines de déterminer si une source est britannique ou américaine (ou canadienne, australienne, etc.). Evidemment, dans le cas où l'url se termine par .co.uk, il n'y a guère de doute. Mais c'est rarement le cas. La plupart des blogs britanniques sont des blogspot.com, wordpress.com, etc.

Les algorithmes sont donc très délicats, et à ma connaissance, aucun service ne propose une discrimination correcte US/UK. Si vous essayez Google Blogs Search ou Technorati, vous verrez par exemple que c'est un gros méli-mélo sans tri véritable autre que (peut-être) sur le domaine .co.uk.

La difficulté provient du fait qu'aucun critère n'est fiable à lui tout seul. On peut par exemple s'appuyer sur l'orthographe. On sait que les Britanniques écrivent colour ou neighbour et non color, neighbor comme les Américains. Utilisable, mais il n'y a que très peu de mots concernés, et on n'est pas certain de les trouver sur un blog lambda. Pour tout compliquer, Canadiens, Australiens et autres pays du Commonwealth utilisent eux aussi l'orthographe britannique. On peut également s'appuyer sur le profil du bloggueur : s'il mentionne "London, UK", c'est gagné. Mais il n'y a pas toujours un profil (loin de là), et encore faut-il le trouver et savoir l'analyser. Le Web 2.0 manque un peu de standards ! C'est plutôt un gros bricolage...

On peut également s'appuyer sur la topologie de la blogosphère (j'espère qu'on pourra bientôt vous montrer de belles cartes US/UK sur le modèle de la Wikiopole FR). Les blogs UK citent principalement les blogs UK, et les blogs US les blogs US. Le Web n'est qu'une somme de communautés... Dans la pratique c'est un peu plus piégeux : les blogs UK citent aussi des blogs US (mais, l'inverse est rare, ce qui facilite un peu les choses).

Bref, pour arriver à un "sourcing" fiable, il faut mixer tous ces critères entre eux, et je vous garantis que ça n'a pas été simple. Mais je suis plus que content du résultat, à la fois en terme de couverture et de fiabilité. Le site UK est maintenant le deuxième site Wikio en nombre de blogs. J'espère qu'il vous sera utile si vous vous intéressez à la culture britannique, et si vous voulez découvrir les blogs d'Outre-Manche. J'aurais adoré ça quand j'apprenais l'anglais au lycée (il n'y avait que la BBC en ondes courtes, c'est vous dire...). Les classements par catégories sont encore bien légers, mais je suis en train d'y travailler d'arrache-pied avec une équipe d'étudiants de master que Wikio a eu la gentillesse de prendre en stage, et nous voyons déjà émerger de très belles catégories. Je ne sais pas si certaines (peut-être Wine & Beer) verront le jour dès le prochain classement, mais sinon, en tout cas, fin juillet.

Ca aussi c'est un sacré challenge : catégoriser de la façon la plus fiable possible les thématiques de centaines de milliers de blogs... Pas simple : bel exemple de sémantique et de topologie entremêlées. Mais ce sera l'objet d'un autre post, je ne veux pas vous lasser !

Libellés :


8 Commentaires:

Anonymous Siegfried Aka CaptainWeb a écrit...

Ca commence à en faire des blogs tout ça, mais doit y'en avoir pas mal qui sont inactifs dans le tas non?

Sinon, en trainant sur la backlink factory il y'a quelques jours je me suis fait une réflexion (que l'équipe de wikio a surement déjà eu, mais bon...). En analysant les liens sortants d'un blog, il n'y aurait pas moyen de réussir à en déduire automatiquement dans quel catégorie il se trouve? Grossierement X backlinks sortant vers X sites du top high-tech pourrait surement indiquer que le blog tourne lui même autour du thème high tech par exemple.

Aller, bon courage pour a suite en tout cas :)

26 juin, 2009 17:33  
Blogger Jean Véronis a écrit...

Si, bien sûr. La plupart des blogs ont une durée de vie courte. Les gens les ouvrent, et puis se lassent... C'est pour ça qu'il faut faire cet effort de sourcing permanent.

Les grands esprits se rencontrent : c'est exactement comme ça que je procède désormais pour la catégorisation. En fait un mélange de topologie (liens) et de sémantique (mots-clés). Petite exclu : on va avoir un nouveau classement Santé sur wikio.fr ce mois-ci et il a été obtenu exactement comme ça. Il y aura plusieurs nouveaux tops sur les autres sites aussi (Wine & Beer etc.)

Merci d'être passé !

26 juin, 2009 17:40  
Blogger Unknown a écrit...

-Il faut demander à celui qui vous livré cette liste de 100 000 urls.
-Lui doit savoir de quel pays sont ces blogs ? (si 1 à 1 les blogueurs ont posté leur site dans un annuaire) ...
Ma question idiote et interressé : D'ou vient votre stock d'url ?

Bravo à Wikio , énorme travail de pro !

26 juin, 2009 19:50  
Blogger Jean Véronis a écrit...

Personne n'a une telle liste. Je l'ai constituée en crawlant le web, comme fait tout bonnement Google, avec des stratégies topologiques (les blogs UK ont plutôt tendance à se citer entre eux) et sémantiques (mots clefs, orthographe, etc.).

Merci du compliment ;-)

26 juin, 2009 20:11  
Anonymous Alexis a écrit...

@Siegfried Aka CaptainWeb

c'est justement ce que l'on peut voir sur la wikiopole (http://labs.wikio.net/wikiopole/)

les couleurs indiquent les thématiques des blogs dans Wikio. la spatialisation se fait par contre à l'aide d'un algo optimisant les placements en fonction du nombre des liens entrants/sortants des blogs.

Au final, on se rend compte que la catégorisation sémantique (et éditoriale) faite par wikio semble correspondre assez bien aux différents "continents" formés par l'algo de spatialisation. Mais on voit par contre des nodes bleus au milieu de nodes colorés : ce sont donc probablement des blogs aux thématiques assez proches qui pourraient (probablement) être catégorisés en conséquence.

On peut également découvrir des continents "émergents" qui sont toujours en bleus : probablement des catégorisations qu'il faudrait identifier !

En tout cas, l'approche topologique+sémantique semble être une combinaison gagnante pour ce type de qualification :)

26 juin, 2009 21:18  
Anonymous Alexis a écrit...

A noter également, concernant la localisation d'une source : impossible de trouver une solution miracle, puisque même humainement il est parfois impossible de bien qualifier une source !

Que dire par exemple d'un bloggeur d'origine française, publiant sur un blogspot, installé en amérique du sud, et qui écrit ses billets en anglais ?

Ya des jours, c'est un vrai casse- tête, même pour des documentalistes ;)

On avait également fait des tests en utilisant les données des registrars (whois), mais pour que cela marche il faut que le blog dispose d'un nom de domaine, enregistré qui plus est avec une vraie adresse, et pas anonymisé (GoDaddy permet par exemple d'anonymiser ses informations : http://en.wikipedia.org/wiki/Domains_by_Proxy)
C'est d'ailleurs une des raisons qui fait que Google est devenu officiellement un Registrar il y a quelques années. Ils n'enregistrent pas de noms de domaines, mais c'est une mine d'information gigantesque pour mieux gérer son index !

Autre possibilité, utiliser la geolocalisation à partir des adresses IP, mais cela ne fonctionne que si le blog est sur un serveur dédié clairement localisable, ce qui ne représente qu'un très petite quantité de blogs au final..

Bref, un vrai casse-tête. Chapeau Jean ! :)

26 juin, 2009 21:27  
Anonymous Ferocias a écrit...

"En analysant les liens sortants d'un blog, il n'y aurait pas moyen de réussir à en déduire automatiquement dans quel catégorie il se trouve?"
En faisant cela, mon blog ne serait pas dans la bonne catégorie.
Les liens entre les blogs peuvent aussi être le fruit d'affinités (électives ou non), pas forcément de proximité thématique.

25 juillet, 2009 23:30  
Blogger Jean Véronis a écrit...

Il y a toujours des exceptions, mais du point de vue statistique cela reste vrai : les affinités se font globalement autour de thématiques. Mais il est certain qu'il faut compléter l'analyse des liens par celle du contenu (mot-clés fréquents par exemple). C'est la stratégie que j'essaie de développer (ce n'est pas forcément simple...)

25 juillet, 2009 23:42  

Enregistrer un commentaire