Lexique : R

retour lexique

retour index lexique

info supplémentaire


Recherche documentaire

Si vous recherchez des documents concernant un sujet bien précis, vous faites appel aux techniques de recherche sur le contenu des documents (par opposition à une recherche sur des données structurées). A cet effet, un moteur d'indexation (la partie "cachée" du logiciel) et de recherche (l'interface d'interrogation utilisée par l'utilisateur) est nécessaire. Cet outil permet d'extraire, principalement d'un corpus textuel, les termes qui le représentent, l'identifient au mieux et de les stocker dans un index. Ces termes-index sont comparés avec ceux de la question posée. Ensuite, le logiciel fournit une réponse comprenant des informations triées (les titres des articles ou l'extrait d'un document). Certains moteurs utilisent les informations inhérantes aux documents électroniques (les étiquettes <titre>, <section>, ... issues de la norme SGML, par exemple) reprises dans les notices documentaires propres à chaque document.

Les outils d'indexation et de recherche utilisent, et parfois combinent, lesapproches suivantes:

Technique du fichier inverse

Cette technique, la plus ancienne est aussi connue sous le nom de technique de recherche de texte intégral. Elle fonctionne essentiellement selon le principe de la recherche de mots dans un texte.

Modèle linguistique

Les différents types d'analyseurs linguistiques permettent d'élargir la recherche d'information, de repèrer les mots porteurs d'informations, de lever les ambiguités. Cette technique autorise une recherche intelligente, non pas sur des mots mais sur des termes ou expressions, voire des concepts, contenus dans le texte.

Modèle d'intelligence artificielle

L'utilisation des bases de connaissance et d'un moteur d'inférence permet d'élaborer des stratégies de recherche sur le contenu sémantique de documents pré-filtrés. Cette recherche peut, par exemple, prendre en compte certaines informations contextuelles.

Modèle mathématique

L'analyse statistique et mathématique permettent une analyse rapide et efficace de grandes masses de données. On parle également de recherche, d'extraction d'information de structure de surface. Cette approche est basée sur la reconnaissance de motifs similaires entre la question posée et le texte. Cette technique s'appuie sur des technologies diverses telles que les statistiques pures, la reconnaissance de forme, la classification automatique, etc. [\]

Actuellement, les logiciels de recherche, outre le fait de combiner les diverses techniques de recherche, intègrent des outils complémentaires : visualisateurs de documents, des gestionnaires d'images, OCR (reconnaissance optique de caractères), ...

 

informatique documentaire

retour lexique

Recherche d'informations : approche bottom up / top down

On distingue deux approches relatives à la recherche d'informations:

  • bottom up (ascendante) : la recherche d'information s'appuie sur l'ensemble des informations sur lesquelles la recherche s'effectue et non nécessairement sur la connaissance qu'en a l'utilisateur. Le clustering est une démarche de type bottom up.
  • top down (descendante) : qualifie l'approche des techniques de recherche documentaires classiques. La recherche d'information s'appuie sur la connaissance qu'en a l'utilisateur a priori. La stratégie top down est adoptée par la quasi-totalité des moteurs de rcherche, agents intelligents, ... Actuellement pour augmenter la performance et la pertinence des recherches, cette démarche utilise des technologies complémentaires dont la technologie à thésaurus.[0]
 

technique linguistique

retour lexique

Reconnaissance des formes

La reconnaissance des formes, dans le cadre de l'indexation est une technique mathématique qui vise à extraire les caractéristiques d'une information par une analyse de type spectral. Cette technique permet à un moteur de recherche d'effectuer une recherche de type floue.

La reconnaissance des formes ou la recherche floue sont des moyens d'indexation et de recherche de textes très tolérants. En effet, ces techniques sont indépendantes de la langue usitée et tolèrent les fautes d'orthographe, les caractères parasites, etc. Elles se révèlent pratiques quand on récupère des textes par OCR (reconnaissance optique de caractères) qui peut occasionner des erreurs de reconnaissance de caractères.

L'indexation APRP(Adaptive Pattern Recognition Processing) du logiciel RetrevialWare utilise une technologie fondée sur la reconnaissance des formes par un réseau neuronal, appliquée au codage binéaire des informations. L'indexation des documents multimédias s'appuie aussi sur la technique de la reconnaissance des formes. [!]

 

recherche documentaire

retour lexique

Rédaction et édition de textes

Le domaine de la rédaction et de l'édition de textes englobe toutes les techniques informatiques qui permettent, facilitent la conception, le traitement et la publication d'un document. Cette assistance s'applique à différentes étapes : le choix, l'orthographe des mots, la construction de la phrase, l'emploi des temps de conjugaison, la présentation du texte, la mise en page du document, ...

Ces programmes se sont naturellement adaptés au multimédia et aux besoins nés des inforoutes : présentation d'un document avec texte et vidéo, édition en HTML, ..

 

Intelligence artificielle

 retour lexique


Réseau neuronal

Processus opaque permettant à partir de valeurs en entrée de découvrir une valeur en sortie. Les réseaux neuronaux sont constitués de neurones, aussi appelés noeuds, et d'interconnexions entre ces noeuds, liens permettant d'envoyer des signaux de neurone à neurone. Un réseau de neurone a pour caractéristique de pouvoir apprendre et mettre à profit son expérience pour ajuster le modèle trouvé en fonction, par exemple, de l'arrivée de nouveaux éléments. [I]

 

Intelligence artificielle

 retour lexique


Ressources linguistiques

Définition

"Ressources linguistiques" désigne des "ensembles de données et de descriptions linguistiques en format électronique utilisées essentiellement pour développer, améliorer et évaluer des algorithmes ou des systèmes de traitement de la parole et du langage naturel." [#]

  • Corpus écrits et oraux

- corpus bruts : textes écrits ou transcriptions écrites de productions orales - enregistrements de textes à voix haute, de discours, d'émissions de radio, etc.
- corpus annotés ou enrichis : indications relatives à la structure du texte, aux catégories morphosyntaxiques ou sémantiques - informations sur la prosodie, le sens, les locuteurs, l'environnement sonore, etc.
- corpus alignés : contenu traduit en plusieurs langues.

  • Ressources lexicographiques

- lexique, dictionnaire, grammaire, ...

  • Ressources terminologiques

- lexique, thésaurus, dictionnaire et banque de données de vocabulaires spécialisés, mono ou multilingues.

Utilisation

  • Elaboration de systèmes [$]
    De nombreux systèmes de traitement de la langue écrite ou parlée fonctionnent par apprentissage à partir de corpus. On considère que la performance des modèles proposés par ordinateur - dans la recherche et le filtrage documentaire ou la traduction assistée - dépend, pour une large part, de la masse des données linguistiques disponibles pour entraîner le système
    Les corpus permettent aussi de construire des ressources linguistiques indirectes : des lexiques spécialisés à partir d'un ensemble de textes techniques.
  • Evaluation de systèmes
    Les ressources linguistiques, et notamment des corpus de grande taille, sont utilisées pour évaluer les systèmes développés et pour les comparer : logiciels de recherche documentaire ou de filtrage d'information, correcteurs orthographiques et grammaticaux, etc.

Ces ressources linguistiques sont munies d'outils (logiciels) qui permettent leur collecte, traitement, gestion, mise à jour, et utilisation.

Elles servent de ressources de base aux entreprises travaillant dans la localisation de logiciels, aux sociétés de services en ingénierie linguistique, ainsi que pour les études linguistiques, l'édition électronique, les transactions internationales et pour divers utilisateurs impliqués dans des domaines spécialisés.

  • Recueil des données, soit directement sous forme numérique, soit en les numérisant.
  • Codage des données : marques de structuration, marques morphosyntaxiques, sémantiques ...
    Un des codages est le TEI (Text encoding initiative) qui permet de baliser des textes avec un minimum d'étiquettes conceptuelles (des notes et des gloses normalisées).

 

TEI

corpus TIL

res. terminologique

catégorisation

retour lexique


Robotique

Ensemble des études et des techniques de conception et de mise en œuvre des robots effectuant des tâches déterminées en s'adaptant à leur environnement.


Accèdez à des renseignements supplémentaires disponibles dans les Ressources de l'Ìnventaire

[\] Aladin et ses génies - Meunier (Lanci) - La puce ceveil - 03/1998   retour

[0] Recherche d'informations sur Internet - J. Thil - Technologies Internationales nº45, juin 1998

 
retour

[!] Excalibur Technologies International - Excalibur RetrievalWare - http://www.excalib.com/products/rw/rw.html - démonstration d'une recherche effectuée en mode Pattern (APRP)

 
retour

[I] Data Mining sur Internet (Glossaire) - Didier Nakache - Conservatoire National des Arts et Métiers (CNAM de Lille) - http://home.nordnet.fr/~dnakache/probatoire

retour

[#] Bulletin N°21 (conférence ELRA) de France Langue Technologies http://www.culture.fr/culture/dglf/garde.htm    (Ressources)

retour

[$] Ressources linguistiques par la DGLF http://www.culture.fr/culture/dglf/riofil/garde.htm

 

retour

Dernière modification:

Ce site est optimisé pour Netscape 6.0 ou pour Internet Explorer 4.0 ou ultérieur;
Et pour une résolution de 600/800 (Modifiez-la SI nécessaire).

Tous droits réservés © OTIL, 1999, 2002