Hypertextes et théorie de l'information

Face à l'augmentation du nombre de documents diffusés sur les divers supports informatiques (CD-ROM, réseau, etc.), il devient nécessaire d'opérer une sélection intelligente de ce qui est disponible pour se restreindre aux documents intéressants, c'est-à-dire ceux qui offrent une information nouvelle par rapport à celles qui sont déjà intégrées aux connaissances actuelles.

De nombreux concepts sont à préciser ou à redéfinir comme celui de document, de connaissances et d'information afin de pouvoir construire une représentation, un modèle, de ces objets qui permette de "calculer" l'apport d'information par un document. Par ailleurs, le point de vue de l'utilisateur peut jouer un rôle non négligeable dans la définition de ce qui est intéressant ou non.

Ce travail, mené conjointement depuis la fin des années 1980 par Luc-Olivier Pochon (IRDP, luc.pochon (AT) unine.ch) et Alain Favre (fondateur de la Société A2I, alainfa (AT) @bluewin.ch) s'inscrit dans ce cadre général. En vue de définir un modèle qui permette d'estimer de façon relativement stable la quantité d'information contenue dans un corpus de données complexes et de maîtriser de ce point de vue un certain nombre d'opérations effectuées sur ce corpus (notamment des ajouts), nous avons rassemblé ici un certain nombre de notions et de références qui nous paraissent utiles.

Pour élaborer un modèle, il nous est apparu intéressant de faire appel à la notion d'hypertexte comme structure de l'information. Ce modèle qu'il s'agira de préciser, présente l'avantage de possèder une partie formelle (le graphe des liens), mais permet également de considérer une partie non structurée (le contenu des unités d'information). Il faut aussi mentionner que selon plusieurs cogniticiens, l'hypertexte présente aussi une structure qui n'est pas sans quelques analogies avec certaines structures mentales.

Il s'agit donc de trouver des éléments quantitatifs qui permettent de comparer entre eux divers hypertextes, en particulier les versions successives d'un même hypertexte.

Ainsi, si l'on reprend l'équation fondamentale de l'information et de la connaissance de Brookes [BRO 80]: K[S] + I = K[S+ S] qui donne l'accroissement de connaissance K liée à une structure S lors de l'apport d'un paquet d'information I, la structure ou support S de la connaissance sera pour nous un hypertexte. Reste le problème de l'interprétation de K.

La théorie des graphes est largement utilisée pour la modélisation des hypertextes. C'est cette voie que nous aborderons également en considérant tout d'abord des relations plus élémentaires permettant de préciser l'idée de concept "référence". Ce point généralise la théorie de l'indexation des documents à partir des citations [SAV 96]. Le graphe "classique" (entre unités d'informations) sur les hypertextes [FUR 96], peut être défini à partir de ces relations élémentaires.

Par ailleurs, il s'avère utile de pouvoir procéder à une classification des noeuds et des liens. Pour cela, [LUC 96] introduit un modèle "objet" permettant de définir des classes d'unités d'informations. Toutefois cette approche "a prioriste" s'avère trop rigide lorsqu'il s'agit de rendre compte d'une construction "naturelle" d'un hypertexte. Nous proposerons donc une classification "a posteriori" basée sur le typage des liens, classification que l'on peut qualifier de dynamique puisqu'elle pourra à tout instant être recalculée sur la base de l'état de l'hypertexte.

De fait, on distingue une première version du modèle "à information complète" ou "a priori". Dans cette perspective, on suppose que la totalité de l'information est connue. A ce modèle sera confronté un processus de construction à partir d'un corpus de documents dont la structure a priori n'est pas connue.

Cela conduit à la notion de modèle "a posteriori" avec diverses nuances puisqu'on montrera dans la problématique de l'interaction entre les mondes II et III de Popper (cité dans [BRO 80]), celui de la connaissance subjective (les représentations mentales) et celui de la connaissance dite "objective" (l'ensemble des documents), c'est-à-dire l'existence d'une symbolisation dans un langage en principe universel de l'état du monde physique (qui est le monde I dans la modèle de Popper). Cette symbolisation n'exclut pas des interprétations multiples, avec des contradictions possibles, et naturellement de nombreuses informations manquantes.

Ces problèmes seront abordés graduellement dans plusieurs documents qui meneront notamment à la notion de " recuit " liée à l'évolution d'un hypertexte d'une part dans son traitement automatique (modèle a posteriori) et d'autre part dans un modèle qui tiendrait compte des caractéristiques d'un groupe d'utilisateurs. Cette voie débouche à la fois sur des problèmes liés aussi bien à des aspects cognitifs que représentationnels.

Travaux préparatoires et annexes

Quelques documents rappellent des techniques de base pour la classification d'objets multi-indexés. Ces documents évoluent, laissez vos coordonnées si vous voulez être avisé des mises à jour.

Analyse cluster et analyse de contenu: quelques rappels concernant l'analyse en cluster.

Décomposition en valeurs singulières et analyse de contenu: note à propos de l'apport du "Latent Semantic Indexing" (LSI) dans l'analyse de contenu.

Double décomposition: le problème est de procéder à la fois à un regroupement des "cas" et des "variables".

Deux limites à l'analyse cluster: une retombée du "ugly duckling problem".

Une méthode de classification basée sur le calcul de l'entropie.

Eléments de théorie des graphes.

Transmission et "likelihood ratio"

Définitions et concepts généraux

Définition formelle d'un hypertexte et calcul de coefficients locaux: l'hypertexte vu comme la conjonction de deux relations mots-documents et les coefficients associés.

Structure d'un hypertexte sous forme matricielle: une approche probabiliste de la structure globale d'un l'hypertexte.

Hypertextes et théorie des graphes: rappel de quelques résultats de la théorie des graphes et leur application au graphe de l'hypertexte.

Décompositions d'un hypertexte: tentative de formalisation d'opérations globales sur les hypertextes.

A propos de typage des hypertextes: différents problèmes posés par la classification des concepts et des unités d'information sont abordés.

Etude de cas, le modèle UTOPIA : cette étude de cas permet d'illustrer quelques concepts théoriques.

Un simulateur pour la création d'hypertextes: le modèle adopté (par agrégation) est celui de la "construction" du web.

Quelque manipulations pour déterminer la structure d'un hypertexte: présentation de la structure "papillon", des notions d'autorité et de hub.

Etude expérimentale de la structure d'hypertextes créés par agrégation.

Etude expérimentale de la structure d'hypertextes créés à partir des relations document-concept : les hypertextes étudiés ont une structure liée à leur contenu.

Etude expérimentale de la structure d'hypertextes créés par morceaux à partir des relations document-concept.

Tout hypertexte construit par agrégation peut être considéré comme un hypertexte créé à partir des relations document-concept.

Etude expérimentale de la structure d'hypertextes créés par agrégation à partir de 2 germes. Une des études s'effectue via le passage par les matrices R et D.

Etude expérimentale de la structure des concepts d'un hypertexte. Les techniques sont appliquées au graphe dual, constitué par les concepts.

Représentation de la proximité d'unités d'information dans le plan dR x dD.

Représentation de la proximité des concepts dR x dD.

Analyse structurelle standard. Les coefficients de structure "classiques"

Publications

Connaissance, théorie de l’information et hypertextes,
histoire d’une lecture sélective
: une première synthèse. (errata)

Etude d’hypertextes construits sur les relations « descripteur » et « référent » (proposition de communication refusée à H2PTM'09)

Bibliographie et références

Bibliographie: références utilisées explicitement dans les articles.

Bibliographie en cours de constitution.

Latent Semantic Indexing (LSI) site web: portail concernant la méthode d'indexage LSI.

Complexity: Complexity International is a refereed journal for scientific papers dealing with any area of complex systems

ResearchIndex: ResearchIndex is a scientific literature digital library that aims to improve the dissemination and feedback of scientific literature, and to provide improvements in functionality, usability, availability, cost, comprehensiveness, efficiency, and timeliness

BUBL Journal: Contents, abstracts or full texts of over 200 current journals and newsletters (with Library and Information Science and Journal of Information Science)

Encyclopaedia Autopoietica: The Encyclopaedia Autopoietica was compiled to provide an annotated compendium of the terminology developed and employed by Humberto R. Maturana and Francisco J. Varela.

Package GAP permet de calculer l'homologie simpliciale de complexes simpliciaux finis et la forme normale de Smith d'une matrice "rare" à coefficients entiers. Un manuel intéressant présente les notions théoriques (GAP is a free system for computational discrete algebra).

Projets Prof'Expert et Ermitage (Web'Expert): des cas d'utilisation du modèle HAM et de XML pour créer des hypertextes. Avec le manuel du programmeur de Prof'Expert et les aspects techniques du projet Ermitage.

Alimentation de la bibliographie (réservé aux membres du groupe)

 

(c) L-O. Pochon, A. Favre & IRDP, 1998