Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, juin 11, 2008

Handicap: Le scaphandre et le papillon (2)

Vous avez été très nombreux à commenter la première partie de ce billet, et quels commentaires ! On a parlé de logarithmes, de recherche dichotomique, de codes de Huffman, de théorème central limite... Quelle chance extraordinaire que d'avoir des lecteurs comme vous ! Quand on voit les commentaires à deux sous et les polémiques à la noix sur certains blogs, ça fait vraiment plaisir. Mais que les lecteurs un peu moins versés dans la chose mathématique ne s'enfuient pas effrayés : on garde ça pour les commentaires. J'essaierai de rester simple dans les billets eux-mêmes...


Je terminais l'autre jour par des questions : l'ordre exact choisi a-t-il vraiment beaucoup d'importance ? Si par exemple l'orthophoniste du Scaphandre avait tout simplement pris l'ordre des lettres du Scrabble, y aurait-il eu beaucoup de différence dans la pratique ? J'avais quelques petites idées sur la question, évidemment, mais je me méfie énormément des intuitions lorsqu'il s'agit de statistiques et de langage. On a souvent tout faux ! (et j'ai effectivement eu quelques petites surprises).

Pour me livrer à quelques petites expériences, je suis parti d'un corpus de transcriptions de conversations orales réalisé il y a quelques années dans mon équipe de recherche. La partie que j'ai utilisée représente 24 heures de parole pour environ 275 000 mots, et environ 1 million de lettres... J'ai une pensée émue rétrospectivement quand je pense à nos transcripteurs, et encore ne saisissaient-il pas les textes avec la méthode du Scaphandre (il faut environ 40 heures pour transcrire proprement une heure de parole avec un clavier normal) !

Ce corpus était parfait, car il ressemble probablement d'assez près aux besoins de communication quotidiens de Jean-Dominique Bauby. Je me suis demandé combien de "clics" de paupière il lui aurait fallu pour ces 24 heures de parole mises bout à bout, avec la méthode décrite dans le film. C'est assez simple : on calcule la fréquence de chaque lettre, on multiple par son rang dans l'ordre de la dictée (ESARIN...) et on additionne le tout. J'ai trouvé le nombre astronomique de 7,6 M de clics ! Cela donne en même temps le nombre moyen de lettres qu'il faut épeler avant d'atteindre la bonne : 7,6 (environ). Je ne sais pas quelle était la taille de son livre, mais j'imagine qu'il n'était pas du format Guerre et paix... Supposons qu'il ait été de 100000 lettres (la taille d'un petit livre), cela fait tout de même 760 000 battements d'aile de papillon ! Il est vrai que l'orthophoniste devinait les mots avant qu'ils ne soient totalement épelés, et cela a dû faciliter (un peu) la tâche (mais dans quelle proportion ? voilà une autre question intéressante : j'y reviendrai peut-être).

Combien gagne-t-on avec l'ordre ESARIN, etc. par rapport à l'ordre alphabétique classique ? Par rapport à l'ordre du Scrabble ? Par rapport à un ordre purement aléatoire ? Pour répondre à toutes ces questions, j'ai procédé de façon systématique. En plus de l'ordre du film, de l'ordre alphabétique et de deux ordres aléatoires, j'ai calculé l'ordre des lettres dans le Petit Prince, dans un corpus d'œuvres littéraires (5 millions de mots) et dans le journal Le Monde (Un million de mots).

SourceOrdre
alphaABCDEFGHIJKLMNOPQRSTUVWXYZ
alea1GPILZEDKWAHBNCVMQOUYJXFTRS
alea2LQFZRSITAHJGPBYVEUMXDNCOWK
petit-prince EISATNRULOPDMCVJQBFGHXYZWK
litteratureEASITNRULODCMPVQFBGHJXYZKW
mondeEASNIRTULODCPMVFGQBHXJYKZW
oralEASITNUORLCDPMVQFHBJGXYZKW
papillonESARINTULOMDPCFBVHGJQZYXKW
scrabbleEAINORSTULDMBCFGHPVJKQWXYZ

En prenant l'ordre du Scaphandre pour base, voici le gain (ou la perte) obtenus en utilisant les autres ordres de ma liste.




On voit que l'ordre adopté par l'orthophoniste constitue un gain très net par rapport à l'ordre alphabétique, qui est 1,7 fois plus coûteux. On s'y attendait, mais on remarquera tout de même que le gain n'atteint même pas la moitié (intuitivement, je pensais qu'on gagnait plus). Les ordres aléatoires sont évidemment plus mauvais, ce qui permet de noter au passage que l'ordre alphabétique tient déjà compte, dans une petite proportion, de la fréquence des lettres (d'ailleurs l'alphabet ne se termine-t-il pas par W, X, Y, Z, comme si on avait mis à la fin ces lettres encombrantes ?).

Peut-on mieux faire que l'ordre du Scaphandre ? La réponse est oui, comme on le voit sur mon graphique. Le meilleur ordre possible est celui extrait du corpus oral lui-même, mais ça, c'est tricher. C'est un peu comme si on avait utilisé les fréquences des lettres du livre de Bauby avant qu'il ne l'écrive. Impossible (ou alors ça devenait un bouquin de SF...). Mais ça nous donne une borne : c'est la limite de ce qu'on peut espérer obtenir avec cette méthode. C'est assez étonnant de constater qu'on ne gagne que 2% ! L'ordre du Scaphandre est donc assez optimal ! Plus étonnant encore, si l'on prend tout bêtement l'ordre des lettres du Scrabble, on perd un peu, mais on ne perd jamais que 3% par rapport à l'ordre du Scaphandre. Quand aux méthodes savantes, issues de l'analyse de corpus de textes, elles n'améliorent pas la situation de façon très spectaculaire. On gagne un petit pourcent avec le Petit Prince et le Monde ; le corpus de littérature fait encore un peu mieux, et il est très proche de l'optimalité ! On ne "perd" que 0,4% par rapport à l'ordre des lettres dans le corpus oral...

J'ai été assez surpris je dois dire par ces résultats. Tout d'abord cela veut dire en gros, qu'on peut prendre n'importe quel classement des lettres par fréquence, et le résultat est à peu de choses près le même. Par ailleurs, je m'attendais à ce que la littérature soit plus proche de l'oral que le Monde (en particulier à cause de la présence des premières et deuxièmes personnes, quasi absentes du Monde, mais je ne m'attendais pas à une quasi optimalité !

Enfin, ces résultats me permettent de rebondir sur le commentaire de Franck sur le billet précédent, qui émettait l'hypothèse que « pour communiquer, l'ordre le plus approprié est certainement "ejarin" qui remonte le "j" en 2e position, lettre fortement utilisée en communication usuelle avec les mots "j" et "je" ». Eh bien, oui, mais pas tant que ça :

SourceOrdre
litteratureEASITNRULODCMPVQFBGHJXYZKW
mondeEASNIRTULODCPMVFGQBHXJYKZW
oralEASITNUORLCDPMVQFHBJGXYZKW
papillonESARINTULOMDPCFBVHGJQZYXKW
sarkozyESANITRULODCPMVQFGBJHXYZKW

Le J gagne une place ou deux par rapport au Monde ou au corpus littéraire, mais pas plus. Et il est à la même place que dans l'ordre du film... Même les discours de campagne de Nicolas Sarkozy ne donnent pas une place particulière au J (et pourtant...). Comme quoi, les impressions peuvent être assez fausses dans le domaine du langage.

SourceOrdre
oralEASITNUORLCDPMVQFHBJGXYZKW
sarkozyESANITRULODCPMVQFGBJHXYZKW

Libellés :


43 Commentaires:

Anonymous Anonyme a écrit...

Il serait intéressant de voir quel impact pourraient avoir des algorithmes de type T9 (pour les téléphone portables) : pour chaque début de mot, la séquence de lettres proposée changerait en fonction des mots finals possibles et de leur fréquence statistique...

Évidemment, dans ce cas il faudrait une machine, ou alors une orthophoniste très douée en calcul.

11 juin, 2008 12:41  
Blogger Jean Véronis a écrit...

Julien> Oui, effectivement, c'est une des pistes possibles pour un taux plus élevé de "compression". D'ailleurs l'orthophoniste faisait un peu du T9 mental, puisqu'elle devinait les mots en fonction du début...

11 juin, 2008 12:46  
Blogger Unknown a écrit...

je pense même que l'humain est bien plus fort que le T9, puisque le contexte lui donne énormément d'indications sur les mots qui peuvent suivre. On peut ainsi deviner le mot suivant avec très peu de lettres, voire parfois avec aucune si en plus on connaît bien la personne qui s'exprime...
Par contre, regrouper les lettres par paquets comme le fait le T9 sur le téléphone (avec des groupes mieux choisis) peut encore améliorer les choses...

11 juin, 2008 13:51  
Blogger mopt a écrit...

"(d'ailleurs l'alphabet ne se termine-t-il pas par W, X, Y, Z, comme si on avait mis à la fin ces lettres encombrantes ?)."

Si cela semble vrai en français, ce n'est vraisemblablement pas la même chose en anglais ou en allemand où la lettre W est bien plus présente par exemple.

11 juin, 2008 14:46  
Blogger efpi a écrit...

Effectivement sur les différents corpus, la lettre "J" reste en queue de liste, statistiquement, c'est vrai.
Mais sur des productions réelles de personnes handicapées moteur utiisant un système d'aide à la communication), le "J" est certainement plus fréquent car les phrases produites sont du genre "je veux relever le dossier", "j'ai soif", "je suis mal assis"...
S'il s'agit d'écrire un livre, l'ordre esarin convient certainement mieux, mais pas pour des messages courts de communication inter-personnelle.
Jean trouve qu'il n'y a pas de grandes différences entre les différents rangements fréquentiels des lettres, ça explique pourquoi, on trouve tant d'ordre différents, ils se valent tous (en dehors de l'aléatoire et de l'alphabétique).
Comme souligné dans les précédents commentaires, ces claviers fréquentiels sont plus utiisables s'ils font de la comlétion de mots.
C'est le cas de la nouvelle version de T9 (xT9) pour les claviers téléphoniques (12 touches), mais ce n'est pas la meilleure méthode. iTap (Motorola) est lus performante et tient mieux compte du contetxe.
Après, il y a bien mieux avec des claviers plus complets.
Le KSR (keystroke saving rate) mesure la performance de la prédiction/ compétion, c'est l'économie en appuis de touches (pour ne pas faire 7,6 millions de clics).
Pour donner un exemple, je cite encore le système Sibylle (car pour celui-là je connais les chiffres) qui atteint un KSR de l'ordre de 50% (48% sur du courriel ou de l'oral, 55% sur des news).
Bref, ce n'est pas le nombre de clics qui compte, c'est plutôt le nombre de clics qu'on n'aura pas à faire.

11 juin, 2008 15:32  
Blogger Jean Véronis a écrit...

Jobba> "l'humain est bien plus fort que le T9" : oui, beaucoup plus (et heureusement ;-) Nous sommes capables devenir la fin d'un mot ou même le mot entier en fonction de la phrase qui précède et du contexte. Si je vous dis "Il pleut des c..." vous n'avez pas beaucoup de mal à deviner le mot "cordes"...

11 juin, 2008 15:47  
Blogger Jean Véronis a écrit...

Mopt> Ce serait amusant de faire des calculs sur les différentes langues ! Le cas du W est intéressant, puisqu'il a été créé (je rois vers le 6e ou 7e siècle) spécifiquement pour représenter la consonne germanique /w/. C'était plutôt un double U (il n'y avait pas de distinction graphique entre U et V à l'époque), ce qui est logique (/w/ étant proche du son /u/ = ou). En anglais on dit d'ailleurs double-you...

Pendant étonnamment longtemps il a été considéré comme lettre étrangère en français, ou au mieux comme une ligature. Aucun mot en W dans le dictionnaire de l'académie, par exemple !

11 juin, 2008 15:58  
Blogger Jean Véronis a écrit...

Franck> Je crois que tu as raison : la fréquence des lettres est incroyablement sensible au corpus, et donc aux situations de communication. Dans le cas d'un handicapé moteur lourd comme Baudy, il est très probable que ses besoins premiers de communication tournent autour de phrases comme celles que tu cites, avec beaucoup de "je" (mais c'était sans doute moins le cas dans son livre). En quelque sorte la liste doit s'adapter à la situation (mais alors elle est difficile à mémoriser).

Il y a un autre petit facteur, qui s'ajouter : le J est plus fréquent à l'initiale, et comme on devine souvent la fin du mot (comme on vient d'en discuter), c'est rentable de l'avoir plutôt au début de la liste.

je viens de faire un petit calcul. En prenant exactement le même corpus oral, mais en ne considérant que la première lettre des mots, le J gagne 5 places !

EASITNUORLCDPMVQFHB*J*GXYZKW (mots entiers)
EDACPLMQSOTVI*J*FUBNRHGYKZWX (première lettre)

On voit d'ailleurs le chamboulement assez intégral de la liste !

11 juin, 2008 16:09  
Anonymous Anonyme a écrit...

J'avais vu une autre séquence il y a 25 ou 30 ans (début années 80 (*)) dans la rubrique cryptographie de la revue Jeux & Stratégie.

Elle commençait par ESANTIRULODCPM...

Est-il possible de savoir d'où provenait cette séquence ?

(J'essaierai de retrouver l'article en question. Mais avec l'état de mes archives, rien n'est garanti ! :-). )


(*) Désolé, je n'ai pas la réfélrence précise...

11 juin, 2008 16:26  
Anonymous Anonyme a écrit...

mais je me méfie énormément des intuitions lorsqu'il s'agit de statistiques et de langage. On a souvent tout faux ! (et j'ai effectivement eu quelques petites surprises).

Je sais que vous allez me trouver espiègle, mais voilà des expériences bien intéressantes, pourriez-vous les développez s'il-vous-plait ? Je sais que ce n'est pas le plus glorieux, mais les limites de ce dont on discute est souvent le plus intéressant, du moins un préalable indispensable à le compréhension véritable de ce dont on discute. Voilà, si le cœur vous en dit, j'en serais ravi et ne diminuerait pas du tout l'estime que je porte à ce blog et à son auteur, au contraire. Quant aux médisants, si on commence à leur prêter attention, ...

11 juin, 2008 16:35  
Blogger Jean Véronis a écrit...

Thierry> ESANTIRULODCPM... On déjà Cité le Manuel des Castors Juniors, les typographes et Georges Perec. C'est marrant, il y a un tas de listes plus ou moins concurrentes qui semblent se promener dans la nature. Mais les divergences s'expliquent assez bien. Les cryptographes amateurs ont dû analyser des textes à la main avant les années récentes, donc forcément de petite taille, et les biais sont assez grands (on le voit avec le I en deuxième place dans le Petit Prince). Même avec des corpus de plusieurs dizaines de millions de mots, on n'arrive pas à converger vers une liste stable (voir discussion sur les limites du théorème central limite en commentaire du billet précédent)...

11 juin, 2008 16:44  
Blogger Sophie a écrit...

Je ne suis pas sûre que dans un contexte de handicap, le 'je' soit si important que ça. Quand chaque lettre est extrêmement coûteuse, est-ce qu’on ne laisse pas tomber le pronom ?
"Relever dossier", "Soif", "Mal assis".

Les japonais ont vécu des siècles sans pronoms, et ne les ont ajoutés que pour traduire les littératures occidentales. On s’en passe très bien, le contexte est alors très important.

11 juin, 2008 18:17  
Blogger Jean Véronis a écrit...

Sophie> Oui, c'est bien possible, ça ! Pronoms et articles sont aussi les premières choses qui tombent en français (par exemple dans les télégrammes).

11 juin, 2008 18:55  
Anonymous Anonyme a écrit...

Personne ne l'a encore relevé, mais dans « 7,6 M de clics » (quatrième paragraphe), ce « M », qu'est-ce c'est que ce machin, sérieusement ?

S'il s'agit de « millions » (ou « milliards » ? « milliers » ?), je ne pense pas qu'il s'agisse d'une abréviation très usitée (même si personne n'a tiqué). Peut-être s'agit-il d'une notation couramment utilisée à l'université mais il serait dommage de la laisser ainsi dans un texte destiné à un large public, vous ne croyez pas ?

Bon, après tout, c'est peut-être dû à l'inattention...

11 juin, 2008 21:17  
Blogger Jean Véronis a écrit...

Emmanuel> Trois Pater et deux Ave ?

11 juin, 2008 21:22  
Anonymous Anonyme a écrit...

Chouette, un commentaire où je peux répondre (les sciences physiques c'est plutôt mon domaine, bien que j'adore lire assidument ce blog). Le M est le préfixe pour Méga soit 10^6 soit "le million".
Très intéressant billet au demeurant, comme toujours.
Une question au passage, comment notre alphabet latin a-t-il été établi ou plutôt qui l'a ordonné de telle manière? Déjà les Romains auquel des ajouts auraient succédés?
Cordialement

11 juin, 2008 21:30  
Blogger Jean Véronis a écrit...

Et pour milliard, on apprenait à mettre M avec une barre par dessus... Mais ça s'est perdu avec l'informatique qui se permettait pas la chose.

La question sur l'alphabet latin, c'est une invitation à écrire non pas un billet, mais un livre ! Un bricolage millénaire (et génial) : les Phéniciens, les Grecs, les Latins y ont mis leurs pattes successives... Et puis comme ça ne suffisait pas, les moyennâgeux ont ajouté quelques inventions de leur cru. Et malgré tous ces efforts, on n'a toujours pas un son = une lettre (il nous en faut deux pour CH par exemple !)...

Votre question est superbement intéressante (hélas je ne pourrais pas y répondre en détail en quelques lignes !) : je suis toujours épaté par le fait que l'alphabet est la base même de notre culture, de notre civilisation, basée sur le livre et sur l'écrit, et que la plupart des gens en ignorent totalement l'histoire. Et pourtant !

J'avais coutume de démarrer un de mes cours par la question : pourquoi A ? Silence glacial : aucun étudiant dans l'amphi pour dire d'où vient cette lettre...

Et chaque année, je faisais le même cirque : tracer à la craie sur le tableau un A à l'envers : ∀...

Il se levait toujours une main timide : "M'sieu, ce serait pas..."

Alors je mettais la main sur ma tête avec deux doigts levés et je disais : "et si !!!" (et si ça ne suffisait pas, je faisais le bruit idoine ;-)

Et paf, l'audience était dans la poche pour le semestre.

11 juin, 2008 22:01  
Anonymous Anonyme a écrit...

Sébastien: Le M est le préfixe pour Méga soit 10^6 soit "le million".

Oui, ça, je savais. Ce qui m'étonne, c'est l'utilisation de M dans ce contexte. M, pour Méga, est un préfixe qui s'utilise avec des unités (MW pour mégawatt, par exemple), pas en plein milieu d'une phrase (du style, « la France compte 62 M d'habitants »).

11 juin, 2008 22:10  
Anonymous Anonyme a écrit...

>Emmanuel, je m'en doutais un peu que vous connaissiez la signification de ce "M" en voyant le style de votre réponse. Par contre, ayant la(fâcheuse si je comprends bien à présent :-) ) tendance de mettre ce genre de préfixe dans mes textes, ça ne m'avait pas choqué.

Quant au Pr. Véronis imitant le taureau, cela doit valoir la peine d'assister au premier cours ;-)

11 juin, 2008 22:24  
Blogger Jean Véronis a écrit...

M le maudit...

11 juin, 2008 22:29  
Anonymous Anonyme a écrit...

De mémoire, je n'ai plus les références sous le coude, et cela mériterait d'être corroboré par d'autres, Claude Shannon jouait avec ses invités à deviner des phrases. Il prenait un livre au hasard dans sa bibliothèque, et demandait à ses invités de deviner la phrase lettre par lettre.
Le début est laborieux, mais la reconstitution de la phrase est accélérée par la connaissance des lettres précédentes. De fait, le langage est redondant, pour couvrir la perte de signal potentielle liée au bruit environnant, etc.

Cela a semble-t-il mené à la Théorie de l'Information. Le T9 est juste une application de ce jeu :-)

12 juin, 2008 11:40  
Blogger Jean Véronis a écrit...

Eric> Absolument! on est en pleine théorie de l'information : toutes les méthodes dont nous parlons ne sont possibles que parce qu'il y a une forte redondance dans le langage humain.

Pour l* p*tit* h*st**r*, l* j** de l* d*v*n*tt* *st **ss* *n j** *q**l j* m* l*vr* d*ns m*s c**rs... Le succès est toujours garanti (et après les étudiants ont compris pour toujours ce qu'était la redondance.

12 juin, 2008 11:59  
Anonymous Anonyme a écrit...

Il manque une lettre à "auquel" !

12 juin, 2008 12:53  
Blogger Jean Véronis a écrit...

*h m*rd* !!!

c'était pour voir si vous suiviez ;-)

12 juin, 2008 13:07  
Anonymous Anonyme a écrit...

abcdefg...phénicien ? grec ? latin ?

Etrusque, il me semble.

A voir sur des encriers toscans du Vème siècle avant J.C. recouverts d'un abécédaire.

Mais je me trompe peut-être. Comme le dirais un Ulysse Thyrrénien "Personne n'est parfait".

12 juin, 2008 18:00  
Anonymous Anonyme a écrit...

J'aurais aimé entendre le bruit du A.
Et j'aurais sans doute levé le doigt pour demander :"et le B ?".

12 juin, 2008 18:08  
Blogger Jean Véronis a écrit...

LP> Oui ! j'ai un peu racourci la longue histoire... C'est passé par les Etrusques, qui utilisaient une varant de l'alphabet grec classique. Bizarrement, il y avait des lettres qui ne leur servaient à rien comme le B, mais que les Latins ont ressuscitées...

12 juin, 2008 18:09  
Blogger Jean Véronis a écrit...

LDS> Eh bien justement, c'est généralement ce qu'ils font ! Ca me permet d'enchaîner avec la maison (c'est ce qu'était le B à l'origine, un simple rectangle, qui s'est déformé par la suite), puis avec le chameau (gamma)...

Et il y a quelqu'un qui dit généralement : oui, m'sieu, mais le gamma, on ne l'a plus !

Ah ah!!! Et on continue comme ça...

J'adore ce cours. Comme il y aussi généralement des musulmans et juifs, cela permet d'œuvrer pour le rapprochement des cultures. Car aussi bizarre que ça puisse paraître, les gamins de 18 ans n'ont pour la plupart aucun idée que nos écritures soient en fait des cousines, et que bien des lettres portent presque le même nom (alpha, aleph, alif) !

12 juin, 2008 18:19  
Anonymous Anonyme a écrit...

Ouah tout ça est vraiment intéressant. Heureusement que je n'ai pas eu des cours comme ça sinon j'aurai changé de voie pour analyser l'écriture :)

Tiens en passant un petit HS, Exalead à accès aux archives de l'INA
http://blog.exalead.fr/2008/06/04/exalead-fouille-dans-les-archives-de-lina/

Bonne continuation, je ne parle pas, je préfère lire ;)

Shaiton

12 juin, 2008 20:35  
Anonymous Anonyme a écrit...

Bonjour,

Article excellent et discussion intéressante !

Il est clair que tous les alphabets (et les lettres par extension) sont originaires des mêmes racines : alphabet linéaire, d'Ougarite, Akkadien puis phénicien... Toute une histoire !

A quand le prochain billet ;-)

13 juin, 2008 17:07  
Anonymous Anonyme a écrit...

Comme le précise Yapapop en réaction au premier billet de Jean, Jean-Jacques Beneix avait également réalisé un documentaire sur Jean-Dominique Bauby (disponible en DVD). L'ordre des lettres qu'employait Claude Mendibil, son assistante de vie, était le même que celui du film de Julian Schnabel.

Ce qui m'avait le plus frappé dans ce documentaire, c'était la capacité de Claude Mendibil à deviner le message que lui adressait Bauby. Un seul exemple, en espérant que ma mémoire ne me joue pas des tours. Jean-Dominique Bauby commence par indiquer à son assistante la lettre V. Recommence alors la litanie du défilement des lettres, pour arriver au O. Aussitôt, Claude Mendibil propose VOus ?. D'un clignement de paupières, Bauby acquiesse. L'assistance passe alors au mot suivant. Bauby indique qu'il commence par la lettre E. Aussitôt, Claude Mendibil propose êtes ?, qui est effectivement le mot recherché. Jusqu'ici, on peut supposer que Claude Mendibil s'est appuyée sur la grammaire française et sur sa connaissance de locutrice des mots fréquents en français pour deviner les mots les plus plausibles. Mais la phrase finale (qui témoigne du sens de l'humour et de la force de caractère de bien des handicapés) sera Vous êtes libre ce soir ?, que l'assistante devinera avec une stupéfiante rapidité.

Arriver à un résultat aussi remarquable nécessite une complicité, une prise en compte du contexte de communication et de l'implicite dans les relations humaines qui resteront sans doute à jamais hors de portée du traitement automatique...

Il est pourtant des situations où la machine surpasse l'être humain. L'ordre des lettres qui intéresse Jean dans ce billet est considéré comme immuable. Or, tout joueur de Scrabble sait qu'après le tirage d'un q, il sera en mauvaise posture s'il n'a pas de u dans son jeu. De même, après la séquence au, la probabilité de voir survenir un x remonte en flèche !

Il n'est pas possible pour un être humain de modifier en direct l'ordre de présentation des lettres pour s'adapter aux lettres déjà saisies. La capacité de Claude Mendibil à énoncer aussi rapidement l'antienne ESARIN... est déjà assez remarquable ! A l'opposé, un ordinateur peut faire très rapidement ce type de calcul. Prenons l'exemple du système Sibylle. En début de phrase, l'ordre des lettres affichées sur le clavier virtuel n'est pas ESARIN mais LJTDPAE. Jean aura sans doute détecter que notre modèle n'a pas été appris sur le journal Le Monde... Mais après la saisie de la lettre v, par exemple, le nouvel ordre affiché devient ioeaér. Le o de Vous est donc très bien classé.

Doit-on en conclure que la machine surpasse l'homme ? Non, car bien souvent, Claude Mendibil n'aura même pas eu besoin d'égrener sa succession de lettres apprises par coeur : elle aura déjà trouvé le bon mot. A ce niveau de performance, j'aurais en vie de dire qu'elle "lit sur les paupières" de Jean-Dominique Bauby...

16 juin, 2008 00:00  
Blogger Unknown a écrit...

En parlant des alphabets étrangers, en hébreux il y a beaucoup moins de voyelles. Le aleph bien connu correspond au son "A", mais pour les autres voyelles on utilise un système de points sur les consonnes. Selon que le point est en haut au milieu ou en bas, selon qu'il est doublé ou pas, selon que c'est un petit trait ou un point ça donne a, é, eu, u, o, ou, i ...
Le truc c'est que cette accentuation des consonnes est complètement optionnelle, donc il y a moyen de bien compresser l'info...
Par contre certaines consonnes sont en double dans l'alphabet, par exemple le T.

17 juin, 2008 15:10  
Blogger Valvert a écrit...

Passionnant, je regrette juste l'introduction un peu condescendante envers ces autres blogs futiles... les plus éminents cerveaux se détendent au bistrot en échangeant des banalités, sur les blogs c'est pareil :-)

Tout est affaire de moment, de lieu, etc. Bref !

Je ne connais rien à ces questions mais elles me passionnent. Ma question est : pourquoi, lors de la proposition de cette suite de lettre à Bauby, reprend-on toujours ESARIN partant du fait que certaines lettres ne presque pas en suivre d'autres ?

Si Bauby cligne un A, il y a peu de chance qu'un A ne suive.

Evidemment, cela complique diablement le travail de l'orthophoniste, mais on trouve quand même très souvent une alternance le consonnes et de voyelles en français. N'y a-t-il pas une piste ?

Ensuite, remarque espiègle, vous grands cerveaux ignorez superbement, sauf avec la mention du T9, l'utilisation du langage SMS qui est extrêmement économe (fort KSR) en frappe, au détriment du T9 justement.
On ne le voit pas dans le livre/film, mais je serais à la place de JD Bauby, je traduirais de la sorte : jspr ke t va maplr. Le risque de méprise est faible, comme l'enjeu. C'est un gain énorme en temps.

Merci de votre avis éclairé !

17 juin, 2008 18:11  
Anonymous Anonyme a écrit...

A valvert>

Sur le point :
---------------------
pourquoi, lors de la proposition de cette suite de lettre à Bauby, reprend-on toujours ESARIN
---------------------

Bien analysé. J'ai peut-être pas été clair dans mon commentaire du 16 juin, mais cela traitait de ce point : quasiment impossible à faire pour un être humain, facile pour une machine. Et on le fait en pratique.

Sur le point "SMS" : l'idée est intéressante et en couvre deux en fait. La première est d'utiliser des écritures abrégées (bjr pour bonjour par exemple). C'est complémentaire de ce qu'on voit dans le film, et des systèmes font cette désabréviation, cela ne change rien au problème évoqué par Jean Véronis, c'est simplement un plus. Au passage, il existe une écriture Braille abrégée qui est pratiquée en routine par les personnes aveugles.

La question du langage SMS est un autre problème. Là, j'y connais pas grand chose, mais je sais que Jean s'est intéressé au sujet... Ecrire en SMS peut permettre de communiquer plus vite (moi je suis nul en chat donc j'y perdrais), mais ce n'est sans doute pas la meilleure solution. De nombreuses personnes écrivent en phonétique (par exemple o pour eau) car elle savent que le synthétiseur de parole qu'elles utilisent prononcera correctement le mot.

Par contre, puisque vauvert lance une petit pique aux "grands cerveaux", un petit retour de volée amical : écririez-vous un roman en SMS ? une lettre d'amour en SMS ? une lettre de motivation en SMS ? Les personnes concernées tiennent à montrer qu'elles ont conservé toutes leurs facultés cognitives et qu'elles savent écrire aussi bien que les valides. Le SMS est donc une fausse bonne idée, et ne correspond pas à une attente réelle de personnes ... qui savent comme nous écrire en abrégé quand cela les arrange.

17 juin, 2008 20:59  
Blogger jul a écrit...

Bonjour à tous,

> Les ordres aléatoires sont évidemment plus mauvais, ce qui permet de noter au passage que l'ordre alphabétique tient déjà compte, dans une petite proportion, de la fréquence des lettres (d'ailleurs l'alphabet ne se termine-t-il pas par W, X, Y, Z, comme si on avait mis à la fin ces lettres encombrantes ?).

Ma réaction au premier billet de Jean sur cette question a été de vérifier aussitôt si le rang de fréquence des lettres de l'alphabet était effectivement corrélé à leur rang dans l'alphabet). Raté !
Comme souligné dans ce billet, l'ordre alphabétique est vraiment proche du hasard (et en générant suffisamment de jeux aléatoires, on pourrait avoir une bonne hypothèse nulle pour savoir si c'est significatif ou pas).
Mais tout n'est pas perdu !
D'abord il peut y avoir un effet significatif pour ce meme ordre en anglais ou en allemand, mais je ne parirai pas la dessus.
L'ordre alphabétique a sa propre histoire (et elle est longue, si j'en crois l'article de Wikipedia qui lui est consacré) et il semble aussi en grande partie s'hériter de civilisation en civilisation.
Si cette corrélation a existé un jour, une possibilité pour qu'on ne la retrouve plus actuellement est que le rang des lettres dans l'ordre alphabétique change moins vite que leur fréquence.

Je ne serais donc pas surpris si la corrélation était bien meilleure entre l'ordre qu'utilisaient les phéniciens et celui de la fréquence des lettres dans leur propre langue.
Enfn, je dis les phéniciens mais ça peut être les araméens, ou d'autres peuples...

Par exemple il me semble que le fameux "alef" était pour les phéniciens un "coup de glotte". Et il me semble aussi que comme ils ne notaient que les consonnes, l'alef indiquait notamment le début des mots qui commençaient par une voyelle. Ca vous fait tout se suite augmenter en fréquence ça, non ?

A moins que ce qui nous excite aujourd'hui ne soit que les dernières traces d'une méthode mnémotechnique arbitraire inventée il y a des milliers d'années, quand les élèves annonnaient :"le boeuf dans la maison disait au chameau..."

18 juin, 2008 15:31  
Anonymous Anonyme a écrit...

Hors sujet, mais quand même, puisque vous parlez de vos étudiants, donc d'anciens bacheliers: je corrige le bac S, où vu la difficulté des épreuves, on va friser les 110 % de reçus... mais après, dans le supérieur, c'est la "cata"( réorientations, remises à niveau, 50 % d'échec au niveau L2...). Comment ça se passe chez vous ?

20 juin, 2008 11:42  
Blogger véronique a écrit...

Bonjour,
votre étude m'a beaucoup intéressée. je travaille pour l'association du locked in syndrome créée par jean-dominique bauby (le scaphandre...) depuis sa création en 97
Nous proposons un livret "communiquer sans la parole" (allis-asso.fr) aux membres d'ALIS et nous tentons en ce moment de le faire traduire pour aider la même association Italienne. ll semblerait que les recherches pour l'ordre des lettres en Italien n'existent pas ???
C'est Aristide Grange qui m'a donné vos coordonnées en proposant de mouliner un corpus pour les Italiens. comment le choisir ? Personne pour le moment dans leur association récente n'est spécialisé dans le langage.
à bientôt
Véronique

20 juin, 2008 19:29  
Blogger Jean Véronis a écrit...

Valvert> Effectivement, ma remarque n'était pas nécessaire. D'autant que je trouve effectivement que chacun a le droit d'écrire et de lire ce qu'il veut (et même de regarder TF1). Pan sur le bec ! Merci. (mais à titre de réciprocité, puis-je vous faire amicalement remarquez que vous condescendez vous aussi un peu sur les "grands cerveaux" ? ;-)

Quoi qu'il en soit, je ne suis pas du tout sectaire envers le SMS. Je sais qu'il y a des sortes d'ayatollahs de la langue française, qui estiment que c'est la fin de notre belle culture littéraire. Je n'en fais pas partie. Je trouve que le langage SMS est un superbe moyen de communication rapide. Je l'utilise moi même dans des situations de communication où la rapidité compte : dans le SMS bien sûr, mais aussi dans les mails envoyé de mon portable ou bien dans les dialogues sur IRC. N'apprenions-nous d'ailleurs pas à l'école à abréger nos prises de notes (bp pour beaucoup, qd pour quand, etc.) ? Je ne vois pas grande différence dans le langage SMS. Les procédés mis en oeuvres ne sont pas spécialement nouveaux (regardez mes transparents ici).

Evidemment, c'est là aussi une question de contexte. L'habitude sociale fait qu'il est probablement mal perçu de postuler à un job en langage SMS, ou d'envoyer une lettre de condoléances dans le même style.

Les ados sont parfaitement capables de maîtriser plusieurs codes. Il faut juste les alerter sur ce genre de petite subtilités sociales...

25 juin, 2008 10:09  
Blogger Jean Véronis a écrit...

Jean-Yves > "Ecrire en SMS peut permettre de communiquer plus vite" -- voilà c'est ce j'essayais de dire ci-dessus.

25 juin, 2008 10:10  
Blogger Jean Véronis a écrit...

Julien> Oui, l'ordre alphabétique s'hérite de civilisation en civilisation, avec des bricolages divers au fil des siècles pour faire entrer les nouvelles lettres. Ca a commencé tôt. On n'a pas A, B, G, mais A, B, C, et le G un peu plus loin. Quand on a séparé le U du V, on les a mis a côté, puis plus tard le W juste à côté. Aurait-on une meilleure corrélation avec la fréquence pour des alphabets plus anciens ? Je ne sais pas, il faudrait faire les calculs (assez facile avec le latin et le grec dont on dispose en grandes quantités)...

25 juin, 2008 10:47  
Blogger Jean Véronis a écrit...

LP> Vous voulez me gâcher ma journée ?

;-)

C'est la cata chez nous aussi : on a la moitié des étudiants qui se plantent et abandonnent en premier année. Ce n'est pas que se soit spécialement dur, pourtant, car on n'a pas arrêté de titrer les exigences vers le bas...

Je sais bien qu'il y a un certain nombre de talibans des sciences de l'éducation qui refusent de voir la réalité en face, mais j'ai gardé les tout premiers cours que j'ai fait comme jeune chargé de cours à la fin des année 70. Je serais bien en peine de les faire aujourd'hui.

On a voulu amener 80% des étudiants au bac. Très bien. Sauf qu'on a tiré le bac à eux, d'une part, et que d'autre part on n'a pas prévu la suite. Personne ne s'est préoccupé des universités, qui se sont massifiées, mais surtout dégradées au fil des années, d'une manière qui fait honte à la France : chiottes bouchés, locaux vétustes, chauffages en panne etc. Vous avez lu tout ça dans la presse. Et je peux vous dire une chose : c'est encore pire.

25 juin, 2008 10:54  
Blogger Jean Véronis a écrit...

Véronique> Merci de votre mot ! Plusieurs lecteurs m'ont signalé cette brochure, que je ne connaissais pas, et qui est remarquablement intéressante. Je vais essayer d'en parler dans la suite de cette série de billets... Je suis en mesure de faire ce travail pour l'italien (et d'autres langues, si ça vous intéresse).

On entre en contact par mail? jean@veronis.fr

25 juin, 2008 10:58  
Anonymous Anonyme a écrit...

Jean > "Les ados sont parfaitement capables de maîtriser plusieurs codes. Il faut juste les alerter sur ce genre de petite subtilités sociales..."

Totalement ! Je me rappelle l'étonnement d'un intervenant extérieur dans ma fac qui avait reçu des mails d'étudiants en style SMS... L'étudiant ne voyait pas où était le problème.

25 juin, 2008 15:57  

Enregistrer un commentaire