Lexique : I
|
|
retour index lexique |
| 
|
info supplémentaire |
Depuis l'avènement de l'ordinateur et d'Internet, un grand nombre
de documents se présentent sous forme électronique. L'utilisateur
doit maîtriser l'accès à cette masse d'informations
non structurées. Dans les entreprises, la data
mining représente un enjeu primordial. Gérer, extraire
automatiquement des informations pertinentes de la masse de documents
internes et externes est une démarche indispensable à tout
organisme désirant être compétitif. A cet effet, le
marché propose, timidement, des outils informatiques "intelligents"
qui assistent les utilisateurs tant dans la gestion, la classification,
l'indexation, que dans le parcours, la lecture, et surtout l'analyse de
cette information . Ces développements informatiques font appel
à des compétences de l'Informatique documentaire.
Cette expression désigne "l'utilisation des moyens informatiques
à des fins d'assistance, ou de résolution de problèmes, dans les domaines
de la documentation et du traitement de l'information."[*]
La conception d'outils de gestion documentaire requiert une connaissance
des tâches impliquées dans la gestion et l'analyse de l'information.
Ces tâches, par exemple, la compréhension d'un texte, sont
analysées et représentées dans un langage formel. Cette
étape s'appelle la modélisation qui fait référence
à plusieurs approches telles l'intelligence
artificielle, l'informatique théorique, la linguistique,
la psychologie, etc.
| La plus grande crise qui menace la civilisation
moderne sera la façon de transformer l'information en connaissance
structurée - Carlos Fuentes |
Indexation
L'indexation est l'étape clé du processus de recherche
textuelle. Les techniques d'indexation permettent de définir les
critères utilisables en recherche et leur condition d'exploitation.
En effet, pour que la recherche effectuée soit rapide, il faut
qu'elle s'exécute sur des fichiers ordonnés qui contiennent
les caractéristiques du contenu des documents. Ces fichiers doivent
être aussi reliés aux documents relatifs aux mêmes
sujets. "C'est par la lecture des index qu'on sélectionnera
les documents pertinents et par l'application des algorithmes de recherche
qu'on en déduira les réponses.
Un système de recherche documentaire définit en premier
lieu le jeux de caractères supporté et les langues utilisées.
Il peut aussi indexer des données alphanumériques et les
dates. Ce type de recherche doit être définie de façon
différenciée en fonction de la langue utilisée".
[`]
| Le point en français symbolise des milliers
alors qu'en anglais, c'est la virgule qui joue ce rôle. |
Le système indexe ensuite les documents de sa
base, cad qu'il représente leur contenu sous la forme d'une liste
de termes (clés d'indexation) représentatifs de ce
contenu. Dans le cadre d'une recherche d'informations, il extrait, de
la même manière, les termes de la requête de l'utilisateur.
Puis il cherche à apparier les termes de la requête avec
ceux du document pour évaluer la pertinence de ce document au regard
de cette requête. [^]
Outre les techniques statistiques, l'indexation peut
faire appel soit à la technique des langages contrôlés
: utilisation de mots clés, thésaurus, soit à la
technique du texte intégral.
La recherche qui découle d'une telle indexation est qualifiée
de technique de type top
down car elle s'appuie sur la connaissance qu'en a l'utilisateur
a priori.
Interrogation multilingue
La technique utilisée pour Interroger dans une langue choisie
des documents écrits dans diverses langues dépend du mode
d'indexation choisie :
- Mode d'indexation en langage contrôlé : Dans ce cas,
il faut définir les équivalences interlangues des mots
clés ou des descripteurs des thésaurus
dans les différentes langues.
- Mode d'indexation en texte intégral
: La technique la plus performante est celle qui fait appel aux techniques
linguistiques qui permettent de dépasser l'appréhension
des textes au niveau lexical. En effet, l'analyse linguistique identifie
les concepts présents dans les textes (anglais, par exemple)
et dans la requête (en français) en s'appuyant sur
des dictionnaires (anglais et français) linguistiques
et/ou de réseaux sémantiques. Ces différents dictionnaires
fonctionnent sur la base de concepts identiques.
| La technique utilisée par SPIRIT pour la
recherche multilingue s'appuie sur les dictionnaires dans les différentes
langues et l'utilisation d'une représentation interne pivot
des concepts. |
Interrogation en langage naturel
Interroger sa base de données, Internet , etc. en langue naturelle,
signifie pouvoir adresser sa requête, non pas par des mots clés,
mais en formulant une question.
- Pourquoi le ciel est-il bleu ?
- Les conflits sociaux en Belgiques ces dix dernières années. |
L'un des points essentiels du fonctionnement de la recherche en langage
naturel est le contenu des index : formes canoniques des termes (lemmes),
concepts, mots du texte.
Comme le signale C. Leloup [`],
actuellement, le marché propose des outils de recherche basés
sur deux méthodes d'interrogation en LN
Méthode privilégiant l'analyse linguistique au niveau
de l'indexation : la canonisation des index
- l'indexation canonique du texte : les entrées d'index sont
structurées avec le dictionnaire électronique, ou avec
le réseau sématique > l'indexation nécessite
un traitement
- le texte de la question est indexé, normalisé et enrichi
via le dictionnaire ou le réseau sématique pour désambiguïser
les termes et étendre la requête. > la requête
est très complexe mais la question sera en fait simplifiée
| Exemple de
recherche en LN basée sur l'indexation canonique
Le texte comprend la phrase : La
rencontre entre représentants syndicaux et patronaux n'a
pas abouti du fait des divergences de vue
La recherche porte sur les désaccords
entre salariés et patrons
- Analyse de la phrase : extraction des formules idiomatiques
représentant syndical
et représentant patronal,
divergence de vue; le subsantif
rencontre; le verbe aboutir
- Analyse de la recherche : Désambiguïsation de
patron (d'entreprise ou modèle
de coupe) en utilisant la proximité sémantique avec
le mot salarié (via
les relations entre concepts salarié, entreprise
et chef d'entreprise, par exemple)
- Recomposition de la requête en ajoutant des termes
proches sémantiquement, et en les pondérant
Divergence de vue : 80%
- Refus: 20%
- Employé: 75%
- Chef d'entreprise:
90% - etc.
- Génération d'une requête, par exemple
booléenne, et pondération
des critères
(Désaccord
OU Divergence de vue *8
OU refus*2)
ET (salarié OU employé
*75 OU représentation
des salariés *8
OU représentant du personnel
*8 OU représentant
syndical *8) ET
(...) SAUF (...), etc.
|
Méthode privilégiant l'analyse linguistique au niveau
de la recherche : l'outil linguistique est indépendant du moteur
d'indexation et de recherche
- l'indexation en texte intégral > l'indexation est
rapide
- la question est analysée, indexée, normalisée,
enrichie via le dictionnaire ou le réseau sématique et
une requête est générée en combinant les
termes possibles reflétant les concepts identifiés dans
la question > la requête comporte de très nombreux
termes

| Adaption de l'exemple précédent
- La requête est complétée au moyen
- des formes fléchies des termes en les liant par des OU
- des précisons de distance entre les termes, par exemple,
représentant - patron
|
Infométrie / TIL
L'infométrie, qui consiste à
analyser quantativement les données, associée à des
techniques linguistiques, et d'intelligence artificielle, offre la possibilité
d'effectuer une recherche dans des corpus volumineux non indexés.
Les méthodes statistiques en indexation, comme outils d'aide à l'analyse
et au repérage de l'information, sont incontournables face à la diversité
et au volume documentaire à traiter.
L'assistance des technologies linguistiques se manifestent a diverses
étapes dans le processus infométrique, comme par exemple
:
- identifier les unités signifiantes (les termes et leurs variantes)
- donner un sens aux relations qui unissent les termes et ainsi mieux
décoder les clusters obtenus par classification automatique (technique
statistique) : par exemple, faire émerger les relations sémantiques
entre les termes qui pourront ainsi pondérées la classification
automatique.
A suivre ...
 |
Accèdez à des
renseignements supplémentaires disponibles dans les Ressources
de l'Ìnventaire |
[*] Glossaire ATO
- Service d´Analyse de Textes par Ordinateur de l´Université
du Québec (UQAM) |
|

|
| [`] Moteurs d'indextion et de recherche
- C. Leloup - p.49 - Eyrolles - 1998 |
|
 |
| [^] Les linguistiques de corpus -
Habert -p.106 - Armand Colin - 1997 |
 |
 |
| |
|
|
| |
|
|
|
|
|
|