Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, avril 26, 2006

2007: L'arbre des thèmes

Vous avez remarqué? Je suis descendu des nuages pour atterrir dans les arbres... Je vous présentais lundi les résultats d'une petite expérience: l'application au Web des méthodes de reconstruction "phylogénétiques" qu'utilisent les biologistes. J'avais pris pour exemple les principaux prétendants à l'Elysée pour 2007. Voici aujourd'hui un autre essai, à partir de 27 mots-clefs qui me paraissent être des thèmes probables de la campagne. J'en ai certainement oublié, et ils sont certainement discutables, mais le but ici n'est pas de vous livrer une analyse politique. Il s'agit plutôt d'essayer de montrer ce que peuvent faire les outils en cours de développement dans nos laboratoires, de susciter des réflexions sur les méthodes de représentation graphique du texte --en acceptant les imperfections, les essais, les erreurs, et donc les critiques propres à la recherche en action!



La méthode est toujours la même: j'interroge le moteur Dir.com avec tous les couples possibles (tiens un peu de maths: pour n mots, il y a n(n-1)/2 couples, soit 351 couples pour 27 mots). Le nombre de résultats permet de calculer une distance entre tous les couples, qui est ensuite transformée en un arbre, de sorte que, dans la mesure du possible, les couples souvent cités ensemble sur le Web soient proches dans l'arbre.

Le résultat me paraît assez réaliste: une branche avec les problèmes sociaux (chômage, précarité, etc.), une avec les peurs (terrorisme, délinquance, immigration, etc.), une avec l'énergie et l'environnement (réchauffement climatique, nucléraire, pétrole, etc.), et une dernière avec la formation et l'enseignement (formation professionnelle, écoles, universités, etc.). Il y a peut-être quelques surprises dans le détail: les mots travail et emploi sont plus associés (sur les pages Web!) aux questions de formation professionnelle et d'enseignement qu'au mot chômage, etc.

Je le répète, il ne s'agit pas ici de faire une analyse politique, qui serait bien naïve, étant donné que la seule information utilisée dans tout le processus automatique est le fait que deux mots sont plus ou moins cités ensemble. Mais le fait qu'une carte relativement réaliste émerge à partir d'une information aussi pauvre me semble tout à fait étonnant!

Voilà à mon sens tout un champ d'expérimentation qui s'ouvre devant nous...

Libellés :


48 Commentaires:

Blogger Moulinvert a écrit...

Détail amusant, et consternant, Europe apparaît principalement lié aux problématiques d'enseignement. Probablement un effet secondaire de la campagne Italienne de Romano Prodi.

26 avril, 2006 11:24  
Blogger TOMHTML a écrit...

Félicitations Jean, c'est pas mal ;-)
Je sens qu'un nouvel outil au nom étrange va bientôt sortir de votre imagination pour attérir sur ce blog :)

26 avril, 2006 11:30  
Blogger Jean Véronis a écrit...

TomHtml> Oui, j'aimerais le mettre en ligne... Malheureusement ça ne sera ps possible, parce que le temps est trop long. Comme je dis dans le billet, il faut 351 interrogrations du moteur pour générer l'arbre ci-dessus. Ca prend quelques minutes: trop pour un outil interactif. Dommage.

26 avril, 2006 11:34  
Anonymous Anonyme a écrit...

Je me demande toujours comment bien évaluer ce genre de résultats. Utilisez vous un corpus pre-annoté par plusieurs "humains"?

Enfin, j'ai bien compris que là ce n'est pas la question. En tout cas, c'est sympa de voir que de simples techniques de TALN donnent des résultats interessant pour tous.

Ici je trouve amusant que la croissance soit liée au pétrole et au réchauffement (ça parrait correct) mais pas au pouvoir d'achat.

Bravo en tout cas.

26 avril, 2006 11:46  
Blogger Jean Véronis a écrit...

Mortimer> Utilisez vous un corpus pre-annoté par plusieurs "humains"? -- Non, du tout. C'est du pur automatique. Oui, croissance semble très lié (dans les pages Web) aux questions d'énergie. C'est un peu comme Europe (cf. remarque de Moulinvert) qui est très lié aux questions universitaires. Sans doute dû à la composition du Web, à ses biais, etc. Ceci étant, il faut un peu d'entraînement à la la lecture de ce genre de carte: croissance et Europe sont très haut dans l'arbre (la racine est au centre), leurs branches bifurquent tout de suite. Cela veut dire que ce sont des mots qui (tout en étant plus fortement tirés par la branche où ils sont), sont aussi associés à tout le reste. Finalement, n'est-ce pas un peu le cas: croissance et Europe, questions centrales?

26 avril, 2006 11:53  
Anonymous Anonyme a écrit...

Un grand bravo pour ces cartes et cette construction lexico-sémantique.
Pour moi qui suit à l'affut des cartes porteuses de sens, je suis impressionné et comblé. Merci !

26 avril, 2006 13:27  
Blogger Marianne a écrit...

Bonjour Jean,

Cette représentation paraît très intéressante, mais j'ai du mal à comprendre comment ça marche. Le parallèle avec les arbres phylogénétiques n'est pas si évident, je ne vois pas ce qui tient lieu d'"ancêtre commun". Est ce que le centre de l'arbre représente quelque chose ?

Evidemment j'imagine que la méthode est difficilement explicable...

26 avril, 2006 14:21  
Anonymous Anonyme a écrit...

J'ai du mal à expliquer le "couple" immigration/logement...

Quant au couple terrorisme/islam, le moteur ne récupère-t-il pas "islamisme" et/ou "islamiste" ?

Parce que là, sinon, çà fait peur...

Le choix des termes sur une thématique est-il discriminant ? (par exemple sécurité à la place d'insécurité)

Merci encore pour tous ces sujets de réflexions

26 avril, 2006 14:36  
Blogger Jean Véronis a écrit...

Marianne> Les techniques de reconstruction d'arbre ne nécessitent pas nécessairement de postuler un ancêtre commun. On calcule les distances entre espèces sur la base d'un critère donné, par exemple, le nombre de nucléotides qui diffèrent dans leurs séquences ADN. Les méthodes de tracé d'arbre essaient de retrouver l'arbre qui est le plus compatible avec ces distances... Pas facile à expliquer, effectivement, sans rentrer dans des maths et des algortihmes, ce qui montre qu'il va falloir que j'y réfléchisse plus.

26 avril, 2006 15:31  
Anonymous Anonyme a écrit...

Comme les sondages, c'est sujet à interprétation et à caution, mais tout de même très amusant (et un peu inquiétant). En tout cas belle analyse des 4 "pôles" qui se distinguent. Dans le détail effectivement on voit des bizarreries qui s'expliquent "en grand" : comme mondialisation très proche de terrorisme et islam (peurs), alors qu'on s'attendrait à le voir près de délocalisations. Ou encore pouvoir d'achat et protection sociale, très proches, ce qui s'explique par la "précarité" qui les subsume.

Quelques idées en sus (rapidement jetées) :
- est-ce judicieux d'ajouter les mots-clés que l'on distingue à travers cette arbre ? (comme peurs, environnement, mais aussi pourquoi pas "cotisations" ou "partage" => cf chomages, impots retraites)
- je n'y connais rien en matière d'arbres phylogénétiques, mais peut-on changer leur focus ? Plutôt que de chercher l'ancêtre commun, prendre un mot particulier et en construire l'arbre des "ancêtres", des "enfants" et des cousins. Peut-être quelque chose qui ressemblerait à un mix entre un nuage et un arbre ?

J'imagine que vous avez déjà phosporé sur d'autres extensions...

26 avril, 2006 15:40  
Blogger Jean Véronis a écrit...

Jean> C'est quand même moi qui donne la liste des mots au départ. On peut évidemment discuter! Je ne prétend pas que cette liste représente quoi que ce soit de pertinent en soi. C'est plutôt la démarche algorithmique qui m'intéresse. Evidemment, si j'avais mis "islamiste", la proximité avec "terroriste" serait encore plus grande , mais justement, je ne voulais pas trop entrer des évidences pour voir si mes algorithmes produisaient quelque chose. Le couple "immigration/logement" m'a surpris: je pensais que logement allait se mettre du côté de "précarité, chômage", etc. Mais en fait, en regardant les pages web, on s'aperçoit que le problème qui semble le plus douloureux pour les immigrés, c'est celui du logement -- on l'a tristement vu avec les hôtels qui flambent, les "marchands de sommeil", etc. On en parle pas mal. Bien sûr, le Web associe dans une certaine mesure "immigration/délinquance/insécurité", mais moins, finalement, même si ceux qui font ces associations parlent très fort (ces jours-ci encore, d'ailleurs). Quant à "sécurité", le mot est très ambigu: sécurité tout court, sécurité sociale, sécurité de l'emploi... Il faudrait essayer, mais a priori c'est le genre de mot qui doit se trouver tiré de plusieurs côtés à la fois et donc se retrouver un peu flottant au milieu (comme croissance, Europe).

26 avril, 2006 15:46  
Anonymous Anonyme a écrit...

> en regardant les pages web, on s'aperçoit que
> le problème qui semble le plus douloureux
> pour les immigrés, c'est celui du logement

Vu que "immigration" et "logement" sont dans la branche des peurs, j'avais pensé a priori que ce qui faisait peur dans l'immigration était le fait de "prendre" le logement de quelqu'un d'autre (+ crise du logement, hausse des loyer et de l'immobilier, etc, qui en découlent).

L'analyse "manuelle" des pages explique un résultat tout autre. Donc méfiance avec ce genre d'outil et de représentation, dont la pertinence dépend beaucoup des a priori de l'observateur !

Merci tout de même pour votre blog.

26 avril, 2006 17:04  
Anonymous Anonyme a écrit...

très intéressant de voir que l'europe, cet objet vide, n'est associée à ... rien

26 avril, 2006 17:23  
Blogger Jean Véronis a écrit...

Anonymous> ...ou à tout, ce qui revient (algorithmiquement parlant) au même.

26 avril, 2006 17:26  
Anonymous Anonyme a écrit...

Est-ce que l'algo (ou mieux le code :-)) de production de l'image à partir des triplets (mot1,mot2,distance) serait disponible quelque part ???

26 avril, 2006 17:35  
Blogger Jean Véronis a écrit...

Fabien> Il y a une description de ce type de représentation arborée dans

Barthélemy, J.P., Guénoche, A. 1991. Trees and proximity representations. New York, Wiley.

Il y a une très grande quantité de liens vers des logiciels et packages ici.

26 avril, 2006 17:45  
Anonymous Anonyme a écrit...

Cet arbre est intrigant... Les choses sont parfois bizarres (Europe & Enseignement). Pour en faire un peu plus représentatif, on pourrait peut-être l'élargir. Ainsi, avec une liste de 10 mots, on obtient 45 couples. Imaginons que l'on garde les 2 premiers mots associés (ceux qui reviennent les plus souvents avec le Nébuloscope) en plus à chaque couple, cela nous fait 45 + 2x45 soit 135 mots, dont certains "doubles". Ensuite, on fait la recherche avec ces mots pour établir un arbre. Cependant le calcul doit être un peu long.. Si vous aviez le temps, ce serait intéressant de voir quels mots "apparaissent". Et encore bravo !

26 avril, 2006 17:58  
Anonymous Anonyme a écrit...

Merci beaucoup pour ces deux pistes !

Et aussi pour les inspirations que suscitent (au moins chez moi) vos expérimentations et visualisations.

26 avril, 2006 18:00  
Blogger all a écrit...

Bonjour,
L'arbre phylogénétique des biologistes prend sa place dans une théorie où les espèces se transforment -le tranformisme incluant le darwinisme et le lamarckisme- et évoluent sous la pression sélective - darwinisme ou néodarwinismes.
N'oublions pas aussi que la génétique moléculaire se déconstruit à l'aune de ses propres progrès, nous sommes dans l'ère de la post-génomique et de l'épigénétique qui ont du mal à cadrer avec la théorie. Dans ces cas la théorie est modifiée, on lui rajoute des principes nouveaux.
Tout ça pour dire que l'arbre des biologistes tend à démontrer quelque chose sur le terrain dans lequel il s'exprime ; que la proximité génétique entre l'écaille et la plume apporte la preuve d'un ancêtre commun.

Sur quelle théorie faites vous reposer votre arbre ? Vous le dites justement "le fait qu'une carte relativement réaliste émerge à partir d'une information aussi pauvre me semble tout à fait étonnant". Quel est le rapport au réel de cette carte et comment le définissez-vous ?

26 avril, 2006 18:44  
Anonymous Anonyme a écrit...

All > Malgré son nom, il ne faut pas confondre un arbre phylogénétique avec un arbre généalogique. Un arbre phylogénétique ne fait que traduire sous la forme d'un graphe une matrice de relations de proximité. Dans le cas de la biologie, on interprète ensuite la proximité génétique comme l'indice de l'existence d'un ancêtre commun, mais ce n'est pas lié à la construction de l'arbre. Dans ce cas, il me semble que ce qui est réaliste est le fait qu'une distance fondée sur la coccurrence des mots dans le même document indique une proximité sémantique.

26 avril, 2006 20:30  
Anonymous Anonyme a écrit...

Dans les arbres il y a des feuilles, des fruits, des oiseaux, des nids...
Sécurité ou insécurité, choix difficile, mais autant l'analyse comparée de couples de politiciens équivalents du point de vue fonctionnel est compréhensible, autant ici les différents thèmes sont trop hétéroclites. Notamment parce que certains sont des thèmes neutres (logement), d'autres des peurs (insécurité), des concepts négatifs (terrorisme) d'autres positifs (pouvoir d'achat) . Il faudrait retravailler avec des termes sélectionnés plus rigoureusement. Une piste: les noms des différents ministères...

26 avril, 2006 22:19  
Anonymous Anonyme a écrit...

Je crois, jean ,que les mots que vous proposez ne sont qu´un reflet d´eux mêmes, et que comme Jorge Luis Borges , vous ne proposez qu´un jardin (de mots) dont les sentiers se bifurquent ,qui se bifurquent...qui se..

Comme nous l´avons déjà expliqué à Alice (through the mirror), les mots ne signifient exactement, que ce que le pouvoir veut qu´ils signifient exactement. Et ils ne signifient jamais rien d´autre...

Moreover, jean, vous choisissez des mots qui ne sont pas LINÉAIREMENT INDÉPENDANTS (encore les maths...). Donc, votre arbre n´est pas inépendant, un non arbre en quelque sorte...


Question indépendante(1):

Démontrer que le nombre de solutions de la somme NUNCA+ ES + SANO = FUMAR est pair.


Question indépendante(2): Trouvez des Sudokus dont le nombre de solutions est premier

PS: 1000 anciens(anciens); (anciens)^2, Francs à qui pourra démontrer (1).

27 avril, 2006 02:13  
Blogger Jean Véronis a écrit...

All> Sur quelle théorie faites vous reposer votre arbre ? ... Quel est le rapport au réel de cette carte et comment le définissez-vous ? -- Vastes questions, auxquelles ils serait bien prétentieux pour moi de prétendre apporter une réponse! On essaie de théoriser le langage, son rapport au réel, depuis au moins Platon et Aristote, et je ne suis pas sûr qu'on ait beaucoup avancé.

J'ai un but beaucoup plus modeste: fournir quelques outils de mesure ou de visualisation, comme les physiciens ont des règles graduées, des thermomètres, des oscilloscopes... La linguistique a terriblement besoin d'une approche empirique, c'est-à-dire qui se base sur l'examen de véritables données (et non sur des constructions de l'esprit). Avant de théoriser la gravitation, on a observé le comportement de billes qui roulent sur les pans inclinés, qui tombent de la tour de Pise (et éventuellement quelques pommes qui tombent des arbes). L'aller-retour expérimentation-théorisation me paraît très important: on observe, on bâtit des théories qui font des prédictions, on observe à nouveau pour voir si les prédictions sont vérifiées, on corrige les théories, etc. C'est évidemment un point de vue devenu trivial dans les sciences "dures" (cf. Karl Popper). En linguistique ça l'est moins.

27 avril, 2006 09:16  
Blogger Philippe a écrit...

Très joli, les arbres phylogénétiques sont vraiments d'excellents outils de visualisation (faire l'arbre des pays selon leur "proximité de vote" à l'ONU est aussi intéressant). Mais pourquoi avez-vous choisi de représenter l'arbre avec des arêtes de même longueur ? Une méthode qui fournit un arbre phylogénétique où les distances par un chemin dans l'arbre reflètent les "distances Google" entre deux feuilles permettrait de visualiser plus clairement notamment la proximité de feuilles soeurs (pour vérifier par exemple si le couple logement-immigration est aussi rapproché que enseignement-école).

27 avril, 2006 09:45  
Anonymous Anonyme a écrit...

Bravo, cet arbre est vraiment un outil algorythmique interessant.
De mon point de vue il aurait peut être une application ludique en intelligence artificielle.
En effet, un des défis de l'IA est de donner au moins l'illusion (confèrer le test de Turing) que une machine peut comprendre un terme abstrait lors d'un échange avec un humain.
Or votre algorythme apporte une avancée très passionnante puissqu'elle est capable de contruire des sortes champs "sémentique" à partir d'une base de donnée immense : internet.
Imaginez que vous voulez parler à une machine intelligente et qu'elle test l'arbre de vos mots avec ceux bruts de sa base de donnée. Elle pourra alors les classer en arbre et "saura" les associé entre-eux et donner une illusion de sens à ce qu'elle vous répondera !

pierrem

PS : On reste dans l'hypothèse comme Turing , que une machine est intelligente si et seulement si l'homme qui engage les conversations n'est pas capable de dire qui si c'est l'ordinateur ou si c'est un homme

PPS : test de turing
http://fr.wikipedia.org/wiki/Test_de_Turing

27 avril, 2006 10:45  
Anonymous Anonyme a écrit...

La distance utilisée devient infinie si les deux mots n'apparaissent jamais ensemble.

Est-ce qu'il y a une ruse ?

Ou est-ce que tout couple de mots apparaît au moins sur une page du web ?

27 avril, 2006 10:58  
Blogger Vicnent a écrit...

@Sopadeajo

question 1 : impossible à démontrer, c'est faux : il n'y a que 25 solutions.

76712+ 39 + 9274 = 86025
76732+ 19 + 9274 = 86025
74712+ 39 + 9275 = 84026
74732+ 19 + 9275 = 84026
76703+ 59 + 9372 = 86134
68613+ 59 + 9362 = 78034
68653+ 19 + 9362 = 78034
72703+ 59 + 9374 = 82136
76714+ 59 + 9470 = 86243
68624+ 59 + 9460 = 78143
76754+ 19 + 9470 = 86243
68654+ 29 + 9460 = 78143
70714+ 59 + 9473 = 80246
70754+ 19 + 9473 = 80246
72715+ 69 + 9570 = 82354
72765+ 19 + 9570 = 82354
71725+ 49 + 9576 = 81350
71745+ 29 + 9576 = 81350
40436+ 89 + 9642 = 50167
40486+ 39 + 9642 = 50167
32357+ 89 + 9730 = 42176
32387+ 59 + 9730 = 42176
51527+ 89 + 9754 = 61370
51587+ 29 + 9754 = 61370
52508+ 19 + 9857 = 62384

question 2 : il n'en n'existe pas
Preuve : par définition, un sudoku n'a qu'une solution. Or 1 n'est pas un nombre premier (sinon la décomposition en facteur premier aurait un problème d'unicité, par exemple...)

de rien.

27 avril, 2006 13:21  
Anonymous Anonyme a écrit...

Un sudoku n'a pas qu'une solution !
S'il est sur-contraint, il n'en a pas, s'il est sous-contraint (exemple : une grille vide) il a plusieurs solutions possible.

27 avril, 2006 14:32  
Anonymous Anonyme a écrit...

"Un sudoku n'a pas qu'une solution !
S'il est sur-contraint, il n'en a pas, s'il est sous-contraint (exemple : une grille vide) il a plusieurs solutions possible."

Je me demande si on pourrais pas établire dans l'ensemble des solution de sudoku une algèbre.
Ce ne serait pas celle des matrices 9*9 mais une autre telle que chaque élément de cet ensemble S est un sudoku ayant au moins une solution.
Dans cet ensemble on pourrait être tenté de chercher un sorte de base générant S. Et cette "base" corresponderait à l'ensemble des sudoku ayant une et une seule solution mais avec le moins de chiffres donné.
J'avoue n'avoir aucune idée de son cardinal ni de son aspect.

pm

27 avril, 2006 14:44  
Blogger Jean Véronis a écrit...

euh? on ne se transforme pas en forum sudoku quand même?

;-)

27 avril, 2006 14:52  
Anonymous Anonyme a écrit...

Pourquoi soudain le sujet part en quenouille ?

Un sujet d'analyse (pour vous) ou un clic foireux (pour eux) ?

Mes quelques remarques sont plus des demandes d'éclaircissements que des critiques, vous l'aurez compris...

J'attends impatiemment l'évolution des arbres (faut dire, j'habite la campagne). Si ça se trouve, la dynamique d'évolution pourrait être en soi instructive...

Bonjour chez vous

27 avril, 2006 17:25  
Blogger all a écrit...

Très (très) modestement, une branche de l'arbre sous forme de fichier .xml :
L'avantage est que le navigateur permet de "replier" l'arborescence et d'abolir les éventuelles questions de distance.
Le problème resterait de nommer chaque node et de définir les relations entre nodes parents et enfants.

27 avril, 2006 17:52  
Blogger Vicnent a écrit...

Désolé Jean.
et je m'arrête

extrait : "Le sudoku du japonais sû, chiffre, et de doku unique est ...". Le seul intérêt d'un sudoku, d'ailleurs, est que sa solution est unique.

27 avril, 2006 19:04  
Anonymous Anonyme a écrit...

Vincent pi

Merci pour votre réponse.
Mais votre programme fait l´erreur de ne pas considérer la possibilité que la lettre la plus â gauche soit 0.
Et c´est le cas pour le couple ordonné (E,C)=(0,5) avec 2 solutions , et (E,C)=(0,1) avec 1 solution. Ce qui fait 28 solutions (pas 25).
En fait, le couple (E,C) est TOUJOURS interchangeable--->nombre pair de solutions.

Je demande pardon par avance à jean, de parler très brèvement de Sudokus.Il n´y a aucune raison qu´ils n´aient pas plusieurs solutions.Mais un nombre premier impair de solutions, impliquerait forcément qu´une seule case admette 3 ou 5 valeurs (nombres premiers) différententes, qui soient solutions.
Une deuxième case avec plus de 1 valeur, nous donnerait un nombre non premier de solutions, bien sûr.
Je pense que l´on pourrait trouver des Sudokus avec 3 solutions.
Très improbable avec 5 solutions, et presque impossible avec 7 solutions.
Il est évident qu´un Sudoku ne peut avoir un nombre premier de solutions supérieur à 7.

27 avril, 2006 20:24  
Blogger Linda a écrit...

Un question se pose : les couples de mots sont-ils choisis par l'utilisateur?
Si dès le départ, il ya un choix, l'emergence va de soi. Nous choisissons généralement en fonction de critères pertinents. En revanche, si l'association est le résultat d'un calcul préalable alors oui, le résultat est surprenant voire même BON :=)

27 avril, 2006 22:08  
Blogger Jean Véronis a écrit...

Llyli> Non, les couples ne sont pas choisis. partant de la liste brute de mots, je soumets tous les couples, et c'est le calcul qui fait apparaître les associations privilégiées.

27 avril, 2006 22:12  
Anonymous Anonyme a écrit...

Nuages, arbres ou rhizomes !? Qu'importe !
J'assiste sur votre blog (et vous êtes légions !) à un mag(nif)ique retour au moyen-âge : l'obscurantisme n'étant plus ici du côté de la religion mais de la raison ! Où est le raisonnable dans cet épuisement rhétorique "scientifique" sadien ?....
Mais l'hérésie (airesis) n'est t-elle pas avant tout un choix.
Alors vive la poésie, la théologie, la mystique, et autre Nuage d'inconnaissance !

27 avril, 2006 23:29  
Blogger Linda a écrit...

Heuuu ... excuse-moi Jean-Pierre. Je ne crois pas avoir vraiment saisi la pronfondeur de ta pensée (c'est trop profond pour moi). Si je résume (arrête-moi si je me trompe), nous sommes des êtres perdus à tout jamais car nous aimons jouer avec les mots mais pas comme tu l'entends. Autre chose, le Moyen-âge n'a pas été la période la plus propice pour le développement du TAL. /loll/

Bien, revenons à nos moutons. Encore une question et je me remets au boulot

Pourquoi tu n'interroges plus google ? Est-ce l'indexation qui est biaisée ? Je n'ai pas eu la chance de suivre les premières discussions alors... ;=)

28 avril, 2006 00:06  
Blogger Jean Véronis a écrit...

Freecorp> Une méthode qui fournit un arbre phylogénétique où les distances par un chemin dans l'arbre reflètent les "distances Google" entre deux feuilles permettrait de visualiser plus clairement notamment la proximité de feuilles soeurs -- oui, j'ai essayé ça aussi (voir diagramme ici). Je ne sis pas convaincu du résultat. Il faudrait normer la chose pour agrandir la partie centrale et raccourcir les extrémités... Il y a plein d'expérimentations à faire, manifestement!

28 avril, 2006 10:11  
Blogger Jean Véronis a écrit...

Beaucoup de commentaires (merci!) -- je me suis un peu perdu en route (notamment dans le sudoku ;-). J'essaie de reprendre le fil...


All> xml -- bonne idée! mais pouquoi ne pas mettre l'information utile dans le CDATA et les infos structurelles dans les tags. Ca semblerait plus en accord avec la philosophie XML. Du genre

<ROOT>
<NODE>
<NODE>
<LEAF>immigration</LEAF>
<LEAF>logement</LEAF>
</NODE>
<NODE>
<LEAF>insecurite</LEAF>
<LEAF>delinquance</LEAF>
</NODE>
...

La distance de chaque noeud dans l'arbre pourrait d'ailleurs être ajoutée sous forme d'attribut...

28 avril, 2006 10:17  
Blogger Jean Véronis a écrit...

Llyli> Pourquoi tu n'interroges plus google ? -- Google présente deux défauts majeur pour ce genre de calcul (ce qui ne veut pas dire par ailleurs que ce soit un mauvais moteur pour les utilisations courantes):

1. Les comptes sont peu fiables et parfois tout à fait erronés (voir ici), notamment avec les recherches à plusieurs termes (c'est le cas dans cette étude) et booléennes d'une façon générale.

2. On ne sait pas exactement combien de documents contient l'index, ce qui est une donnée nécessaire. Il y a eu sur ce point une lutte des chiffres, et Google n'annonce plus rien. Il faudrait avoir de plus le nombre de documents dans l'index francophone et aucun des moteurs (sauf dir ne communique ce chiffre).

28 avril, 2006 10:25  
Anonymous Anonyme a écrit...

juste une question naive : comment "emploi" et "chomage" se retrouvent-ils si eloignes ?
je sais, je sais, tout est calcule automatiquement... mais ces 2 mots sont-ils si peu frequemment uitlises ensemble ??

28 avril, 2006 10:29  
Blogger Jean Véronis a écrit...

Bijou> Cela fait partie des surprises (et c'est peut-être l'intérêt d'outils de ce type). Emploi/travail sont beaucoup plus liés aux questions de formation qu'aux questions de chômage. Reste à savoir pourquoi; c'est là que l'interprétation commence. Comme dans toutes les sciences, d'ailleurs: on a observé une certaine température, comme l'expliquer?

Uné hypothèse, par exemple, tient à la composition du Web (la partie indexée). Peut-être y a-t-il beaucoup de CVs en ligne, d'offres de formation?

Il serait intéressant d'avoir des bases de comparaison: si l'on pouvait faire la même observation en ne prenant (par exemple) que 1) les news 2) les blogs, on verrait peut-être des paysages différents apparaître.

28 avril, 2006 10:40  
Anonymous Anonyme a écrit...

Voilà à mon sens tout un champ d'expérimentation qui s'ouvre devant nous...
Les americains très friands des nouvelles technologies dans leurs quêtes contre le terrorisme ont experimentés ce
procéde et l'experimentent peut-etre toujours...

source : http://actu.abondance.com/2005-22/uir.php

Ce n'est pas la même utilisation, n'y exactement le même procédé, mais ya quand meme une ressemblance ;)

29 avril, 2006 20:36  
Blogger Jean Véronis a écrit...

Coco> Merci du lien! je suis au courant de ces recherches, qui ont effectivement une certaine parenté. L'histoire de la lutte anti-terrorisme est un poil naïve quand on connaît toutes les limites de ce genre de technique! En fait, pas nïve, plutôt cynique: il faut bien obtenir des crédits de recherche quelque part ;-)

29 avril, 2006 20:42  
Anonymous Anonyme a écrit...

Pour le problème du corpus qui influerait sur la relation entre les domaines emploi/travail, chômage et université, on peut faire un test simple : comparer les résultats obtenus sur les couples formés à partir de "emploi", "travail", "université", "chômage" sur Yahoo Web et Yahoo actualités.

Résultats (Web/actualités) :
emploi travail : 12700000/1865
emploi université : 4020000/565
emploi chômage : 2690000/1224
travail université : 6040000/980
travail chômage : 2620000/1127
université chômage : 644000/271
emploi : 45100000/5436
travail : 50200000/14970
université : 24700000/6741
chômage : 4540000/2817
Taille de l'index : 362000000 ("www") / 171658 ("le")

Avec ces données, les NGD sont :
emploi travail : 0,660/0,603
emploi université : 0,900/0,718
emploi chômage : 0,644/0,363
travail université : 0,789/0,842
travail chômage : 0,674/0,629
université chômage : 0,833/0,781

Avec la recherche Yahoo sur tout le web, on a donc un groupe emploi-travail-chômage et l'université nettement séparée tandis qu'avec Yahoo actualités, on a un couple emploi-chômage très proche, lui-même regroupé avec travail, l'université étant encore séparée. Ce qui est surprenant, c'est qu'on ne retrouve pas les résultats de Jean. Je vois 3 hypothèses : Yahoo et Dir.com renvoient des résultats significativement différents, l'algorithme de construction de l'arbre représente mal les données ou la NGD n'est pas vraiment pertinente.

30 avril, 2006 19:07  
Anonymous Anonyme a écrit...

Bonjour et après le nebuloscope merci pour ces nouvelles recherches sémantiques.
Travaillant actuellement sur les "caractères de la société en réseau" j'imarias pouvoir faire des arbres de ce type, que je transmettrais à ce que cela intéresse... pourriez vous être plus précis sur le logiciel utilisé derrière pour formaliser vos recherches ?

Merci d'avance Arnaud

04 mai, 2006 13:54  
Anonymous Anonyme a écrit...

J'observe que le thème "pouvoir d'achat" côtoie "précarité", "flexibilité" et "délocalisation".

C'est vrai que la recherche trop acharnée du "pouvoir d'achat" tend à nous plonger dans les trous de la "précarité" etc!

Les économistes libéraux raisonnent que "nous les consommateurs" feront meilleur marché si "nous les travailleurs" sont plus surmenés, moins bien payés, plus souvent virés....

C'est vraiment un si bon marché?

Voir mon article: "Liberaux contre travailleurs" (avril 2006) chez
www.equilibrium-economicum.net

ANGUS SIBLEY

06 mai, 2006 16:40  

Enregistrer un commentaire