Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, avril 06, 2005

Google: Correction grammaticale ?

J'étais en train de faire divers tests sur le rôle des mots-outils dans les requêtes Google, à la suite de mon article de la semaine dernière (je n'ai d'ailleurs toujours pas complètement compris comment Google les traite...), lorsque j'ai eu la surprise de voir apparaître ceci :

requête la langage sur google

Tout le monde a remarqué depuis longtemps que Google offre un correcteur orthographique dans ses requêtes (bien utile quand on doute de l'orthographe d'un mot, d'ailleurs...), mais jusqu'ici je pensais qu'il se cantonnait à la pure détection de mots inconnus, indépendamment du contexte.

J'ai donc été très étonné de voir ce comportement, qui est celui d'un correcteur grammatical. Juste une précision terminologique : les informaticiens ont pris pour habitude d'appeler ainsi tout ce qui dépasse le simple accès à une liste de mots et demande l'examen du contexte environnant. Pour proposer "langue" au lieu de "langage", il faut avoir vu que l'article était féminin... Opposer correction orthographique et correction grammaticale est une mauvaise idée, car une faute d'accord comme "les enfant" relève de ce que les profs de français ont toujours appelé orthographe grammaticale (voir par exemple la discussion chez Synapse Développement).

Mais ne pinaillons pas. J'ai essayé diverses autres combinaisons sans grand succès. "Une langage" produit le même résultat (proposition de "une langue"), mais rien avec "cette langage", "du langue", "les enfant", "ils parle", "je veut", etc. Même en anglais, où les algorithmes sont généralement plus aboutis chez Google, je n'arrive pas à grand-chose. Rien avec "a animal", "an animals", etc.

Alors que fait Google ? Il semblerait que sa correction "grammaticale" se borne au cas de l'article masculin/féminin, et encore, en français seulement : "la linguaggio" ne provoque rien de spécial sur Google.it.

Bizarre. Je ne sais pas si cela a été repéré sur les forums. Peut-être. Il y a tellement d'information, qu'on s'y perd quand un est un peu (con)pressé... En tous cas, ce ne serait pas la première fois que Google fait des essais, et puis oublie des bouts de code qui deviennent des sortes de fossiles informatiques (j'en ai d'autres exemples dont je vous parlerai peut être un de ces quatre). Pas très propre tout ça, quand même... et on se demande pourquoi ils ne font pas des essais sur des machines autres que celles du public ?

Au fait, pourquoi cettre proposition, "la langue" ? On aurait aussi bien pu proposer "le langage", non ? Peut-être est-ce simplement parce que "langue" est plus fréquent que "langage" ? Cette autre exemple me le laisserait penser :

requête la langage sur google

Si j'avais un conseil à leur donner (puisqu'ils me lisent), il vaudrait mieux laisser l'utilisateur choisir la correction :

Essayez avec cette orthographe : "la langue" "le langage"

La linguistique semble un peu bricolée chez Google...

Libellés :


12 Commentaires:

Anonymous Anonyme a écrit...

Hmmm, l'ami Occam me sussure à l'oreille qu'il ne faut peut être pas chercher de correction grammaticale là où il n'y a sans doute que suggestion basée sur des statistiques...

07 avril, 2005 08:33  
Blogger Jean Véronis a écrit...

Bien sûr ! D'où mon point d'interrogation dans le titre ;-)

Mais j'ai du mal à voir comment ça marche, puisque, comme je l'explique dans le billet, je n'arrive pas à reproduire ça avec des mots comme "du" "cette", etc., qui devraient avoir le même comportement. Idem en anglais ou italien.

Bizarre.

07 avril, 2005 08:39  
Blogger Jean Véronis a écrit...

Je crois que vous êtes sur la bonne piste, mais ça n'est sans doute pas sur la base des requêtes d'un utilisateur particulier (même résultat en tuant les cookies, en changeant de machine, etc.). Si votre hyptohèse est bonne, Google utiliserait l'historique global des requêtes (qu'on peut voir dans Google Suggest), pour faire des propositions. Ca expliquerait bien pourquoi j'observerais quelque chose avec "le" ou "la" et rien avec "du", "cette", etc. Beaucoup de gens font des requêtes en incluant l'article défini ou indéfini, mais pas beaucoup avec des partitifs, possessifs ou autres (ex: "ce langage").

A voir. En tous cas c'est une bonne piste.

07 avril, 2005 11:03  
Anonymous Anonyme a écrit...

Bizarre, ça me laisse perplexe. Ca me semble aussi être l'explication la plus probable.

Mais cela signifie que la précision de google : "Google ignore les chaînes de caractères dont le poids sémantique est trop faible (également désignés « mots vides » ou « bruit ») : le, la, les, du, avec, vous, etc., " n'est pas exacte puisque la recherche change suivant qu'on écrive le 'la' ou pas. non?

07 avril, 2005 11:40  
Blogger TOMHTML a écrit...

ça me rappelle l'affaire du "jaimemaboite", que google corrigeait en "j'aime la bite"... :-D

07 avril, 2005 11:40  
Blogger Jean Véronis a écrit...

>Mais cela signifie que la précision de google [...] n'est pas exacte

C'était un peu déjà ce qui apparaissait l'autre jour (ici).

07 avril, 2005 13:12  
Anonymous Anonyme a écrit...

Ca me rappelle que ce matin, en faisant une recherche sur "mysql réparer dictionnaire", google m'a proposé "mysql récupérer dictionnaire".
Il semblerait donc que les propositions soient basées sur des statistiques de mots recherchés (?)
En tout cas, j'aime beaucoup tous ces jeux linguistiques que vous élaborez avec l'aide de google.

07 avril, 2005 13:23  
Blogger Loran a écrit...

Bonjour a tous,

je sais c'est mal... Mais je vais sur ce beau blog
réaliser une digression coupable.


Pourquoi ici et pas ailleurs?
Et bien il se trouve que l'auteur et le blog (c'est ecrit dans l'url! :) )sont Aixois.
Hors c'est justement dans cette belle ville d'eau, que l'événement de portée universelle que j'aimerais promouvoir va se dérouler.

Et alors?
Et bien j'ai pour intuition, que malgré tous les efforts de la technologie pour dématérialiser la réalité géographique, une chose ne changera pas, c'est l'esprit de clocher.
Un blog, écrit par un géographiquement proche, est dans l'absolu plus intéressant, qu'un autre (et a défaut plus connu aussi, par le bien connu "effet buzz machine a café")...

Si cela est exact, il y a potentiellement ici un public de Provençaux nombreux à conquerir!

Au fait!
Se dérouleront ce Week-end (Samedi et Dimanche),
les championnats de France de Hockey subaquatique de 2eme division dans la piscine municipale olympique (prés de l'école militaire).

Ce sport exigeant, peu orienté vers le public, puisqu'il se déroule entièrement au fond d'une piscine, mérite justement parce qu'il ne sera jamais du show, d'etre découvert.

Donc Mesdames et Messieurs les Aixois, si vous passez par la...
En esperant que l'auteur me pardonnera cette (petite) pollution....
Aquatiquement,

07 avril, 2005 15:50  
Anonymous Anonyme a écrit...

Désolé, mais en réalité Google n'effectue pas de correction grammaticale...

Lorsqu'il propose une écriture différente de la recherche, c'est sur 2 critères simples : il propose, si elle existe, une requète plus fréquement demandée (via un index de classement de requetes tel que celui utilisé pour "Google suggest") et/ou dont l'index comporte plus de résultats, et ce parmis les dites requètes dont les caractères sont très proches.

Tout ceci n'est pas une hypothèse mais une (quasi) certitude.

Bref un le même type algo qui a mené à Google suggest...

07 avril, 2005 15:58  
Anonymous Anonyme a écrit...

Ce sera ici ou nulle part ailleurs :

J'aimerais lire mêm en plusieurs séries de posts... tout ce qu'il faudra ... une petite explication de l'état où en sont les traducteurs automatiques, pourquoi ils sont trop souent synonymes de clown ou d'humour ... pourquoi cela avance si lentement ...

Comment se renseginer pour comprendre comment travaillent les équipes de specialistes pour faire avancer les traducteurs en précision.

Je demande peut-ètre la lune ?
Merci.

08 avril, 2005 02:20  
Blogger Jean Véronis a écrit...

Loran> ça n'est pas trop le lieu. Pour l'instant je n'ai pas encore "tué" de commentaire, mais si tout le monde parle de la pluie et du beau temps, ça va devenir illisible...

JerômeK> en réalité Google n'effectue pas de correction grammaticale : nous sommes bien d'accord (d'uù mon point d'interrogation et les guillemets dans le texte). Ca y ressemble, mais ça n'en n'est pas. La logique exacte reste quand même un peu difficile à comprendre, même si, effectivement, il semble bien que la fréquence des requêtes entre en jeu.

Sani> Oui! je compte parler de la traduction -- mais l'actualité n'arrête pas de bombarder des thèmes (cf. "define" de Google) qui méritent réaction immédiate. Je ne suis pas aussi pessimiste sur la traduction. Elle a fait des progrès, mais comme vous je suis impatient! Pas assez. C'est d'ailleurs difficile à comprendre avec les enjeux incroyables qu'il y a sur le Web...

08 avril, 2005 12:00  
Anonymous Anonyme a écrit...

Jérôme k a écrit... > Lorsqu'il propose une écriture différente de la recherche, c'est sur 2 critères simples ... et/ou dont l'index comporte plus de résultats, et ce parmis les dites requètes dont les caractères sont très proches.
Pas seulement : une recherche du terme "Aisne" amène Google à nous proposer l'orthographe "Oise", nous avons donc en commun un 'is' et un 'e' ... Soit.
Mais, ces deux départements sont proches géographiquement et ils appartiennent à la même région (Picardie). Il est donc probable que la taille de l'internet de l'Oise soit plus importante (c'est même certain), qu'un nombre significatif de document visible par Google comporte les 2 termes, du coup l'Oise emporte l'Aisne.
De ce que je connais de l'internet de ces 2 départements, le nombre de liens entre les domaines est insuffisant à expliquer ce résultat. En tout cas, Google joue avec la géographique territoriale ...

26 avril, 2005 12:43  

Enregistrer un commentaire