Lexique : I

retour lexique

retour index lexique

info supplémentaire


informatique documentaire

Depuis l'avènement de l'ordinateur et d'Internet, un grand nombre de documents se présentent sous forme électronique. L'utilisateur doit maîtriser l'accès à cette masse d'informations non structurées. Dans les entreprises, la data mining représente un enjeu primordial. Gérer, extraire automatiquement des informations pertinentes de la masse de documents internes et externes est une démarche indispensable à tout organisme désirant être compétitif. A cet effet, le marché propose, timidement, des outils informatiques "intelligents" qui assistent les utilisateurs tant dans la gestion, la classification, l'indexation, que dans le parcours, la lecture, et surtout l'analyse de cette information . Ces développements informatiques font appel à des compétences de l'Informatique documentaire. Cette expression désigne "l'utilisation des moyens informatiques à des fins d'assistance, ou de résolution de problèmes, dans les domaines de la documentation et du traitement de l'information."[*]  

La conception d'outils de gestion documentaire requiert une connaissance des tâches impliquées dans la gestion et l'analyse de l'information. Ces tâches, par exemple, la compréhension d'un texte, sont analysées et représentées dans un langage formel. Cette étape s'appelle la modélisation qui fait référence à plusieurs approches telles l'intelligence artificielle, l'informatique théorique, la linguistique, la psychologie, etc.

 

La plus grande crise qui menace la civilisation moderne sera la façon de transformer l'information en connaissance structurée - Carlos Fuentes

 

 

 

 

retour lexique


Indexation

L'indexation est l'étape clé du processus de recherche textuelle. Les techniques d'indexation permettent de définir les critères utilisables en recherche et leur condition d'exploitation. En effet, pour que la recherche effectuée soit rapide, il faut qu'elle s'exécute sur des fichiers ordonnés qui contiennent les caractéristiques du contenu des documents. Ces fichiers doivent être aussi reliés aux documents relatifs aux mêmes sujets. "C'est par la lecture des index qu'on sélectionnera les documents pertinents et par l'application des algorithmes de recherche qu'on en déduira les réponses.

 

Un système de recherche documentaire définit en premier lieu le jeux de caractères supporté et les langues utilisées. Il peut aussi indexer des données alphanumériques et les dates. Ce type de recherche doit être définie de façon différenciée en fonction de la langue utilisée". [`]

Le point en français symbolise des milliers alors qu'en anglais, c'est la virgule qui joue ce rôle.

Le système indexe ensuite les documents de sa base, cad qu'il représente leur contenu sous la forme d'une liste de termes (clés d'indexation) représentatifs de ce contenu. Dans le cadre d'une recherche d'informations, il extrait, de la même manière, les termes de la requête de l'utilisateur. Puis il cherche à apparier les termes de la requête avec ceux du document pour évaluer la pertinence de ce document au regard de cette requête. [^]

Outre les techniques statistiques, l'indexation peut faire appel soit à la technique des langages contrôlés : utilisation de mots clés, thésaurus, soit à la technique du texte intégral.

La recherche qui découle d'une telle indexation est qualifiée de technique de type top down car elle s'appuie sur la connaissance qu'en a l'utilisateur a priori.

 

 

 

 

retour lexique


Interrogation multilingue

La technique utilisée pour Interroger dans une langue choisie des documents écrits dans diverses langues dépend du mode d'indexation choisie :

  • Mode d'indexation en langage contrôlé : Dans ce cas, il faut définir les équivalences interlangues des mots clés ou des descripteurs des thésaurus dans les différentes langues.
  • Mode d'indexation en texte intégral : La technique la plus performante est celle qui fait appel aux techniques linguistiques qui permettent de dépasser l'appréhension des textes au niveau lexical. En effet, l'analyse linguistique identifie les concepts présents dans les textes (anglais, par exemple) et dans la requête (en français) en s'appuyant sur des dictionnaires (anglais et français) linguistiques et/ou de réseaux sémantiques. Ces différents dictionnaires fonctionnent sur la base de concepts identiques.
La technique utilisée par SPIRIT pour la recherche multilingue s'appuie sur les dictionnaires dans les différentes langues et l'utilisation d'une représentation interne pivot des concepts.

 

 

 

retour lexique


Interrogation en langage naturel

Interroger sa base de données, Internet , etc. en langue naturelle, signifie pouvoir adresser sa requête, non pas par des mots clés, mais en formulant une question.

- Pourquoi le ciel est-il bleu ?
- Les conflits sociaux en Belgiques ces dix dernières années.

L'un des points essentiels du fonctionnement de la recherche en langage naturel est le contenu des index : formes canoniques des termes (lemmes), concepts, mots du texte.

Comme le signale C. Leloup [`], actuellement, le marché propose des outils de recherche basés sur deux méthodes d'interrogation en LN

Méthode privilégiant l'analyse linguistique au niveau de l'indexation : la canonisation des index

  • l'indexation canonique du texte : les entrées d'index sont structurées avec le dictionnaire électronique, ou avec le réseau sématique —> l'indexation nécessite un traitement
  • le texte de la question est indexé, normalisé et enrichi via le dictionnaire ou le réseau sématique pour désambiguïser les termes et étendre la requête. —> la requête est très complexe mais la question sera en fait simplifiée

 

Exemple de recherche en LN basée sur l'indexation canonique

Le texte comprend la phrase : La rencontre entre représentants syndicaux et patronaux n'a pas abouti du fait des divergences de vue
La recherche porte sur les désaccords entre salariés et patrons

  • Analyse de la phrase : extraction des formules idiomatiques représentant syndical et représentant patronal, divergence de vue; le subsantif rencontre; le verbe aboutir
  • Analyse de la recherche : Désambiguïsation de patron (d'entreprise ou modèle de coupe) en utilisant la proximité sémantique avec le mot salarié (via les relations entre concepts salarié, entreprise et chef d'entreprise, par exemple)
  • Recomposition de la requête en ajoutant des termes proches sémantiquement, et en les pondérant
    Divergence de vue : 80% - Refus: 20% - Employé: 75% - Chef d'entreprise: 90% - etc.
  • Génération d'une requête, par exemple booléenne, et pondération des critères
    (Désaccord OU Divergence de vue *8 OU refus*2) ET (salarié OU employé *75 OU représentation des salariés *8 OU représentant du personnel *8 OU représentant syndical *8) ET (...) SAUF (...), etc.

 

Méthode privilégiant l'analyse linguistique au niveau de la recherche : l'outil linguistique est indépendant du moteur d'indexation et de recherche

  • l'indexation en texte intégral —> l'indexation est rapide
  • la question est analysée, indexée, normalisée, enrichie via le dictionnaire ou le réseau sématique et une requête est générée en combinant les termes possibles reflétant les concepts identifiés dans la question —> la requête comporte de très nombreux termes

 

Adaption de l'exemple précédent

  • La requête est complétée au moyen
    - des formes fléchies des termes en les liant par des OU
    - des précisons de distance entre les termes, par exemple, représentant - patron

 

 

Language naturel

retour lexique


Infométrie / TIL

L'infométrie, qui consiste à analyser quantativement les données, associée à des techniques linguistiques, et d'intelligence artificielle, offre la possibilité d'effectuer une recherche dans des corpus volumineux non indexés. Les méthodes statistiques en indexation, comme outils d'aide à l'analyse et au repérage de l'information, sont incontournables face à la diversité et au volume documentaire à traiter.

L'assistance des technologies linguistiques se manifestent a diverses étapes dans le processus infométrique, comme par exemple :

  • identifier les unités signifiantes (les termes et leurs variantes)
  • donner un sens aux relations qui unissent les termes et ainsi mieux décoder les clusters obtenus par classification automatique (technique statistique) : par exemple, faire émerger les relations sémantiques entre les termes qui pourront ainsi pondérées la classification automatique.

 

 

Infométrie

retour lexique


A suivre ...

 



Accèdez à des renseignements supplémentaires disponibles dans les Ressources de l'Ìnventaire

[*] Glossaire ATO - Service d´Analyse de Textes par Ordinateur de l´Université du Québec (UQAM)

 

retour

[`] Moteurs d'indextion et de recherche - C. Leloup - p.49 - Eyrolles - 1998   retour
[^] Les linguistiques de corpus - Habert -p.106 - Armand Colin - 1997 retour