Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, juin 25, 2008

Services: Recherche (approximative) de professionnels

Tout le monde connaît les Pages Jaunes. Les plus vieux d'entre nous ont certainement calé leur canapé avec le gros volume jaune gracieusement mis à notre disposition tous les ans (ou ont connu d'autres usages déviants : taper sur la tête d'un suspect dans un commissariat, etc.). Ils ont probablement tapoté sur le Minitel pendant quelques années (en se demandant pourquoi diable il fallait préciser 1-Hôtel avec restaurant ou 2-Hôtel sans restaurant quand on avait demandé "Hôtel à Trifoullis"). Et puis ils ont sans doute suivi Pages Jaunes sur le web. Il faut le croire : la requête "Pages jaunes" est dans le top 5 des requêtes les plus fréquentes sur Google.

Mais arriva la dérégulation (et le grand cafouillage des 118 truc-muche). Bien peu d'internautes ont compris à mon avis, que les 118 offraient aussi, dans la foulée, des services de recherches de professionnels concurrents de Pages Jaunes. La compétition est difficile, car Pages Jaunes a non seulement une audience bien établie (et plutôt fidèle), mais aussi un trésor de guerre constitué de son savoir-faire accumulée au fil des décennies, de ses bases de données gigantissimes, de la force de son réseau de commerciaux...

Car à la base, tous les services reçoivent des opérateurs la même liste : la dénomination du professionnel (Hôtel de l'Etang), l'adresse (Route des oies, 00001 Trifouillis-en-Batloeil), et la catégorie d'inscription (Hôtel). Avec juste ça, il faut retourner le meilleur service. Pas simple. Que faire avec les gens qui demandent Hôtel avec wifi ou Restaurant grec (par exemple) ?

Alors, les 118 essaient des innovations. Par exemple, aller chercher sur le web les informations qui manquent dans la base de données.

Démonstration. La requête "Hôtel avec wifi Aix-en-Provence" me retourne, sur le 118 218, les propositions suivantes (il y a de grandes chances pour que vous n'ayez pas les mêmes si vous essayez car les annuairistes implémentent un "tri alphabétique tournant" pour ne pas privilégier systématiquement les mêmes professionnels) :

So far so good. J'ai un renforcement visuel en gras sur le deuxième exemple, qui me permet de bien vérifier qu'il y a un wifi dans cet hôtel. Il est absent du premier, dommage, mais pour ceux qui connaissent, c'est un grand hôtel : il a probablement un wifi.

Même chose avec Pages Jaunes, qui me propose :

Contrairement aux 118, Pages Jaunes est en mesure de chercher dans les petits descriptifs publicitaires (les trois lignes en orange) que son réseau de commerciaux vend aux professionnels à travers la France. Ca fait toute la différence ! car une recherche sur les pages Web devient rapidement source de bruit et de confusion.

Exemple. Hôtel à Rognes (une petite commune près d'Aix). Le 118 218 retourne trois réponses pour "hôtel rognes" :

Cette fois-ci le 118 218 s'est fait enfumer par la présence des mots "hôtel" et "rognes". Dans le premier et le troisième cas, c'est la présence de l'expression "hôtel particulier" qui crée l'erreur, dans le deuxième, la présence du mot Rognes parce que l'artisan (fabriquant de matériaux moulés) fabrique des trucs en pseudo pierre de Rognes pour les hôtels (entre autres). Si j'ai bien compris. En tout cas, c'est à 200 km environ de Rognes, à Valbonne dans le 06...

Donc, tout faux. L'internaute lambda a passé 5 minutes à essayer de comprendre ce qu'on lui retourne, et dans le meilleur des cas a perdu son temps. Il aura aussi peut-être perdu son argent s'il essaie d'appeler ces numéros pour savoir s'il leur reste une chambre ! Et il ne sait toujours pas, au milieu de la confusion, s'il y a un hôtel à Rognes ou pas...

Essayons Pages Jaunes. Je comprends tout de suite qu'il n'y a pas d'hôtel à Rognes, et le service me propose des réponses à proximité.

Nickel. Enfin presque. Pourquoi deux seulement ? Il y a tout de même d'autres hôtels dans le secteur, ne serait-ce qu'à Aix ! Bug ? Critère commercial obscur ?

Moralité de l'histoire : c'est bien beau d'essayer de se servir du Web pour faire de l'extraction d'informations, mais encore faut-il le faire intelligemment. Pages Jaunes n'a (pour l'instant) pas trop de souci à se faire... du moins du côté du 118 218. Mais un autre concurrent se dessine :

Pas très bon non plus, à dire vrai ! Mais si vous suivez un peu la techno de Google, vous aurez remarqué qu'en ce moment ils y travaillent d'arrache-pied et poussent le service "maps" en avant sur une bonne partie des requêtes. On dirait que c'est un projet prioritaire chez eux. Peut-être ont-ils flairé qu'il y avait là la prochaine source de $$$ (ou d'€€€) qu'ils n'avaient pas encore drainés.

Et pour les jeunes générations, qui n'ont pas connu le calage de canapé à base d'annuaires, le réflexe Google est peut-être une seconde nature... Le vrai danger pour Pages jaunes est peut-être là : gageons qu'ils vont affiner leur techno !


Voir aussi


27 Commentaires:

Anonymous Anonyme a écrit...

Bonjour,

Depuis un moment, Google Maps permet aussi aux 'Local Businesses' (sur l'édition us maps.google.com) de s'incrire par eux-même dans le système Google Maps, de façon gratuite pour l'instant. En bref, Google demande à ses utilisateurs de faire son travail ;-)

Cette tendance semble se confirmer car il est désormais possible d'insérer ses propres cartes dans GGMaps, notamment pour les îles pas encore convertes par Google.

Un beau duel sur la recherche de professionnel s'annonce ! Quant au résultat, je pencherait également pour un Google victorieux : n'oublions pas que 'to google' est devenu un verbe aux U.S.A. et le deviendra peut-être aussi chez nous !

Bien cordialement

25 juin, 2008 14:07  
Blogger Jean Véronis a écrit...

Alain> Oui, j'ai vu ça. Je ne sais pas s'ils vont faire comme ça en France ou s'ils vont retravailler à partir des listes des opérateurs (on dirait qu'ils font déjà ça sur certains domaines). Peut-être feront-ils les deux...

En tout cas, oui, la concurrence va être rude. Car si PJ a une audience assez solide auprès des >30ans, Google a été livré dans le biberon des plus jeunes.

25 juin, 2008 14:13  
Anonymous Anonyme a écrit...

Désolé pour le off-topic.

J'ai découvert recemment l'outil nltk (http://www.nltk.org), et je trouve ca tres interessant. Par contre je n'arrive pas a trouver de 'stemmer' pour le francais. En connaitriez-vous un ? Ou bien faut-il porter un stemmer d'un autre framework (je crois en avoir vu un dans les libs de perl) sur nltk ?

merci

25 juin, 2008 14:40  
Blogger Jean Véronis a écrit...

Benoit> Vous devriez regarder TreeTagger pour le français. Simple, mais ça devrait combler vos besoins.

NLTK c'est un peu l'usine à gaz (à mon goût)...

25 juin, 2008 14:51  
Anonymous Anonyme a écrit...

Merci bien ça a l'air pas mal en effet. Dommage que ce soit closed-source (au moins ils fournissent des binaires linux, c'est deja ca).

En plus y'a un wrapper python :)

25 juin, 2008 15:33  
Blogger Aurélien a écrit...

Pour votre test de Google, vous avez tape directement "hotel rognes" dans Google Maps. Si vous cliquez d'abord sur "Commerces" puis tapez "hotel" a "Rognes", les resultats semblent meilleurs.

25 juin, 2008 16:13  
Blogger Jean Véronis a écrit...

Aurélien> Oui, c'est vrai. Ils sont mieux localisés du point de vue géographique (ce sont des gîtes apparemment, donc un peu à la limite de ma requête mais pas complètement à côté).

A l'heure actuelle il semble y avoir trois algos différents chez google, selon qu'on tape dans le moteur généraliste (qui sur certaines requêtes retourne d'ailleurs parfois des résultats google maps), dans le premier onglet de maps ou dans le second... C'est sans doute la preuve qu'ils y travaillent et cherchent les bons réglages.

25 juin, 2008 16:35  
Blogger N²xT a écrit...

Une autre fonctionnalité intéressante est de renseigner directement le nom de la ville sous Google Maps (par exemple, dans notre cas, Rognes) dans l'onglet "Plan", puis d'utiliser la fonctionnalité "Rechercher à proximité".
Dans ce cas, on trouve des hôtels à proximité de Rognes, en particulier les 3 premiers semblent être de bons candidats.

25 juin, 2008 17:11  
Anonymous Anonyme a écrit...

Les annuaires ont tous accès aux mêmes sources, encore faut-il qu'ils les utilisent !

Il existe un joli service du nom de Pagesjaunes.com (et non .fr) qui se nomme aussi 118 012, et qui tente de tromper les annonceurs et leur propose des tarifs nettement plus élevés que l'original pour des services plus réduits.
Pour apparaître dans cet annuaire (est-ce limité à celui-ci ?) il faut payer, alors qu'il se présente comme l'annuaire universel ; pas étonnant donc que les résultats de recherche ne soient pas optimums. Pagesjaunes.FR fait payer les services annexes, mais toute personne disposant d'une ligne France Telecom y est répertoriée.

En sera-t-il de même si Google ou un autre poids lourd attaque ce marché ?

25 juin, 2008 23:12  
Anonymous Anonyme a écrit...

Il y a 2-3 jours, LCI diffusait un reportage magazine sur la technologie Exalead avec 118218.fr comme exemple : c'est ce qui vous a donné l'idée d'y jeter un oeil ou c'est un pur hasard ?

En tapant "hôtel près de Rognes" chez nos deux chevelus, comme suggéré sur la page d'accueil, les résultats ne me semblent pas si mauvais... mais ce serait plus clair si on avait un repère sur la ville cible

Pour Godgle, les 4 prmiers résultats sont plutôt bons aussi (tout dépend du confort que chacun met derrière "hôtel") et après tout c'est aussi leur catégorie de rattachement. Ce qui fait tache ce sont les résultats suivants. Comme sur le moteur général, quand il n'y a pas/plus de résultats correspondants à tous les mots on a parfois du n'importe quoi ! Le remplissage est rarement payant...

25 juin, 2008 23:34  
Blogger Jean Véronis a écrit...

JLuk> la dérégulation s'est accompagnée de pal mal de pagaille... et d'arnaques. Free a même fermé son service après un procès pour publicité mensongère, si je me souviens bien. Mais à l'arrivée tous les services ont été perdants. Les appels aux renseignements ont fortement chuté. Les gens se sont reportés sur Google, en particulier.

26 juin, 2008 07:52  
Blogger Jean Véronis a écrit...

Anonyme> Non, je n'étais pas au courant de ce reportage, mais je sais que la techno Exalead est derrière 118 218 (je ne suis pas sûr qu'ils soient responsable de la piètre qualité des résultats : ils font probablement ce qu'ont leur demande...)

26 juin, 2008 07:54  
Anonymous Anonyme a écrit...

Je viens de tomber sur ton blog via le blog blog de jeanjean qui parlait de toi:
www.jeanjeanblog.wordpress.com

Je le trouve genial,au moins tout ca nous fait reflechir.
A quand une interview en ligne?

26 juin, 2008 09:58  
Anonymous Anonyme a écrit...

Jean Véronis> Le service de Free n'a pas été fermé pour publicité mensongère mais pour concurrence déloyale, car il était GRATUIT !

26 juin, 2008 13:45  
Anonymous Anonyme a écrit...

Le reportage de LCi est visible ici.
Il y a quelques passages qui me laissent songeur, comme la banque qui interroge "des centaines de bases de données" pour afficher votre dossier client...

26 juin, 2008 22:41  
Anonymous Anonyme a écrit...

"en se demandant pourquoi diable il fallait préciser 1-Hôtel avec restaurant ou 2-Hôtel sans restaurant quand on avait demandé "Hôtel à Trifoullis""

Mouhahaha ! J'avais oublié ce détail qui tue ! Merci pour la madeleine et le fou-rire !...

27 juin, 2008 00:36  
Blogger j¤y a écrit...

La refonte du site des pages jaunes a et va faire passer beaucoup de monde du coté 118 xxx à mon avis.

Enfin, c'est mon cas :)

27 juin, 2008 11:44  
Anonymous Anonyme a écrit...

Un ami :
- "Zut, je ne saurai plus quel numéro, il y en a tellement. J'aime bien la pub, mais le 118218 doit être cher ..."
- "Parce que tu as déja appelé les renseignements ?"
- "Ben non !"

27 juin, 2008 17:59  
Blogger Jean Véronis a écrit...

Antoine> Je n'ai pas la compétence juridique de Maître Eolas, mais il me semble bien que le motif que le juge a retenu dans l'affaire qui opposait Free à Allo Bottin, soit bien le motif de concurrence déloyale.

Le plaignant accusait Free de lancer un service « au-dessous du prix de revient », ce qui constituait à ses yeux « un acte de concurrence déloyale », qui « désorganise le marché ». Le juge n'a pas retenu ce motif, mais a donné raison à Allo Bottin sur le point de la publicité mensongère : « l'offre n'est pas gratuite, le consommateur étant facturé pour toutes les communications qui suivent la mise en relation, toutes les communications de l'annuaire inversé, tous les appels effectués à partir des mobiles, et tous les appels effectués à partir d'une ligne fixe autre que France Télécom ou d'une Freebox ». Le juge a estimé que Free « tromp[ait] les consommateurs » dans sa communication, le service n'étant pas réellement gratuit. [voir par exemple article des Echos de 2006]

Free n'était pas obligé de fermer son service. Il lui suffisait de changer sa communication (ou de rendre le service réellement gratuit).

28 juin, 2008 09:17  
Anonymous Anonyme a écrit...

Cher Jean,

votre buzz wikio est parfois trusté par les sportifs. Lors de Roland-garros, il n'y avait que des tennismen. Maintenant, il y a des footballeurs et des tennismen. J'imagine même pas lors des JO...

Alors que les informations tv par exemple en parle beaucoup moins, en proportion. Est-ce parce que la blogosphère est plus intéressé par le sport ? (public différent)

Cela m'amène une dernière question : Connaissez-vous où je pourrais des statistiques sur les sujets traités par les journaux ? Je me suis toujours demandé si la politique était plus traité que les faits divers.

Merci d'avance.

28 juin, 2008 10:52  
Blogger Jean Véronis a écrit...

Vincent²> Oui, j'ai constaté ça, particulièrement le week-end. Ca s'est aggravé, en fait, depuis que j'ai mis en place cet outil. Il est vrai qu'il y a eu le foot, maintenant le tennis, et on dirait que la blogosphère ne parle que de ça (et bientôt il y aura le cyclisme, puis les JO...). La situation est moins extrême dans les autres pays : exception française ?

En tout cas, je me suis demandé s'il ne fallait pas mettre en place une sorte de "pondération" pour pouvoir régler la présence des différents thèmes dans le buzz. A voir...

En ce qui concerne la presse, je n'ai pas connaissance de stats sur les domaines. Les journaux doivent évidemment en avoir, mais je n'ai pas l'impression qu'ils les publient...

28 juin, 2008 18:16  
Anonymous Anonyme a écrit...

Il serait intéressant d'appeler le 118 218 pour voir si l'opérateur logé dans un bunker téléphonique à Casablanca donne de bonne foi les mêmes mauvaises réponses suite à la requête : "Hôtel à Rognes".

29 juin, 2008 01:55  
Blogger Guillaume a écrit...

Est-ce à dire qu'il vaut mieux utiliser le 118 008, service édité par Pagesjaunes plutôt que le 118 218 ? Hum ?

Personnellement en tout et pour tout je n'ai utilisé les services de renseignement téléphoniques qu'une seule fois, j'en avais été satisfait mais c'était vraiment une urgence.

Sinon, sur le buzz Wikio je m'étais fendu d'un commentaire sur un sujet bizarrement lié à celui des sportifs qui trustent le nuage : celui sur les "acteurs" anonymes de l'actualité (l'histoire de l'annulation du mariage du fait que la mariée avait menti sur sa virginité, le nom des époux n'étant pas publié). Je serais heureux d'avoir vos éclaircissements à ce sujet, si possible.

29 juin, 2008 11:44  
Blogger Guillaume a écrit...

Ce commentaire a été supprimé par l'auteur.

29 juin, 2008 11:47  
Blogger Guillaume a écrit...

Je précise mon commentaire précédent : l'histoire du mariage était justement absente du nuage car le nom des époux, étant inconnu, ne pouvait y apparaitre. Et pourtant, on ne parlait que de ça.

29 juin, 2008 11:48  
Blogger Jean Véronis a écrit...

Guillaume> je n'ai pas d'avis sur les renseignements téléphoniques : je ne m'en sers strictement jamais.

Il me semblait avoir répondu sur le buzz, mais j'ai dû oublier, finalement, mille excuses ! Il est tout à fait vrai que mes nuages ne récupèrent pas les sujets (faits divers) notamment, qui ne mettent en jeu que des anonymes. Il y a eu quelques cas, au cours des dernières semaines, dont celui du mariage annulé. Le sujet a néanmoins été repéré de façon indirecte, parce qu'un certain nombre de personnalités en ont parlé : il y a eu d'abord Rachida Dati, puis Elisabeth Badinter, etc.

Mais onpourrait très bien repérer le buzz sur des thématiques de façon directe. Je me suis limité aux noms propres, mais il suffirait d'appliquer la même technique aux noms communs. On voyait très bien apparaître au moment de cette affaire, l'émergence inhabituelle des mots "mariage", "annulé", "virginité", etc.

30 juin, 2008 11:46  
Blogger Guillaume a écrit...

Jean> Merci beaucoup pour ces éclaircissements, je comprends mieux comment ça marche. En effet je n'avais pas songé au fait que les personnalités qui en parlent pouvait servir à pointer le fait divers même si ses acteurs sont anonymes.

Sinon, ce matin j'ai été invité "au 1 an" d'un petit garçon. Apparemment, vous trottez dans ma tête bien plus souvent que je ne l'aurais imaginé ! ;-)

01 juillet, 2008 14:17  

Enregistrer un commentaire