|
| Définition de l'AFNOR, 1987 : [-] Mot ou groupe de mots retenu dans un thésaurus et choisi parmi un ensemble de termes équivalents pour représenter sans ambiguité une notion apparaissant dans un document ou dans une demande de recherche documentaire. |
Extraction de connaissances
Branche de l'informatique décisionnelle qui met en oeuvre des outils d'analyse
de données (tendances, modèles, segmentation, classification, statistiques...)
pour donner un sens aux volumes d'informations.
Prolongement du Datawarehouse (littéralement "entrepôt de données"), ce concept propose d'analyser et corréler des données éparses pour en rechercher le sens caché. On parle de plus en plus de Textmining, ou d'Infomining au sens large, la recherche se généralisant des données aux informations multimédias non structurées. [!]
Entrepôt de données
Base de données spécifique au monde décisionnel organisée de manière
à faciliter l'analyse des données de l'entreprise et permettre ainsi
aux décideurs d'orienter leur stratégie. D'après Bill Inmon, un Data
Warehouse est intégré, orienté sujet et contient des données non volatiles
et historisées. [$]
La procédure de désambiguïsation permet de traiter ou de lever les ambiguïtés sur un mot ou groupe de mots en fonction de sa signification dans une phrase donnée. En d'autres termes, la désambiguïsation attribue à chaque unité lexicale une étiquette unique en contexte.
| Exemple d'analyse du désambiguïseur
intégré dans l'étiqueteur morpho-syntaxique de Xéros.(voir
étiqueteur)
La coupe était dans la vitrine.
|
Un dictionnaire électronique est conçu de listes de mots et d'un système
de base de données. Il se présente sous la forme de CD-ROM ou en ligne,
sur Internet.
L'arrivée des CD-rom a bouleversé bien des conceptions quand aux
limites des dictionnaires : le cd-rom peut enregistrer plus de 600 Mo,
le DVD (Digital Versatile Disk) a une capacité de 17 Go, soit 25 fois
plus que le cd-rom. [^]
|
Distinguons |
A. le dictionnaire électronique informatisé |
| Dictionnaire francophone en ligne, réalisé
par l'AUPELF-UREF et des Editions Hachette : http://www.francophonie.hachette-livre.fr/ Dictionnaire ROBERT sur CD-Rom |
Deux types de conception :
1. Le choix des sources
En phase "pré-lexicographique", le choix des sources du corpus
linguistiques (romans, articles, rapports, jugements, publicités, ...)
et des informations qu'elles véhiculent dépend de l'objectif recherché
par le dictionnaire : dictionnaire de généralité pour grand public, dictionnaire
bilingue pour traducteurs, dictionnaire de spécialité pour le milieu médical,
dictionnaire destiné aux enfants, ....
2. Le traitement informatique du corpus.
Des logiciels rendent cette documentation opérationnelle en opérant diverses tâches : réécriture, division en paragraphes, calcul de fréquence des occurrences, affichage des lignes de concordances, analyse statistique des données, étiquetage morpho-syntaxique et/ou autre, lemmatisation, indexation, gestion et stockage des données, etc.
L'analyse de ce corpus est aussi un choix idéologique sur le plan scientifique, social et politique.
| Lors de la constitution des corpus sur le français
du Burundi et du Cameroun [:],
la prise en considération de l'information culturelle relative
à un mot a permis une meilleure interprétation de celui-ci.
Le mot brousse a été relevé dans diverses
sources locales |
Comme le signale C. Frey [::], le
choix et le traitement d'un corpus en vue d'une exploitation lexicographique
entraîne la reconstruction de réseaux lexico-sémantiques qui révèlent
la vie et le comportement des mots et derrière eux, la vie et le comportement
d'une société.
3. Constitution d'un fichier lexical
4. Dépouillement du corpus métalinguistique
Notons qu'il est possible actuellement de gérer les données linguistiques et métalinguistiques simultanément.
Soit par une gestion modulaire et intégrée à l'intérieur d'une seule base de données. Le lexicographe obtient ainsi un dossier de rédaction d'article complet (informations linguistiques et métalinguistiques).
| La banque de mots du français de Suisse romande |
Soit par un environnement de travail multitâche (OS/2, MacIntosh, ...) qui favorise la constitution d'une station lexicographique fonctionnelle. [!]
5. Rédaction des articles de dictionnaire
Un article de dictionnaire est une forme de texte truffée de codes dont la structure particulière définit la façon dont les informations vont se présenter dans le corps de l'article.
Article encodé par WordPerfect
en fonction des exigences du logiciel d'édition électronique Ventura
Publisher (extrait)
|
6. Choix rédactionnel
Le choix de la nomenclature, des données métalinguistiques, des références encyclopédiques, des types de liens (par synonyme, domaines d'application, ...), de l'affichage des informations, etc. s'opère en fonction de l'orientation du dictionnaire.
Exemple de choix
d'informations métalinguistiques propres à un dictionnaire
bilingue (Robert & Collins) [>]
|
7. La mise à jour du dictionnaire
La gestion des entrées de la base de données de corpus et l'informatisation
de la lexicographie ont pour effet de produire des dictionnaires reflétant
l'évolution de la langue : introduction des néologismes, anglicismes,
noms propres, ...
L'emploi des procédés informatiques d'édition limitent les frais
de développement d'un dictionnaire (réutilisation du lexique enrichi de
nouvelles entrées) et permet une mise à jour rapide du dictionnaire initial.
Le consommateur peut se procurer ces modifications, via soit Internet
, soit le cd-rom/ module de mise à jour.
| Dictionnaire | de généralité |
de spécialité |
| monolingue intralinguistique |
Robert, Oxford English Dictionnary, ... | synonymes, verbes, homonymes |
| multilingue interlinguistique |
Van Dale, COMPLEX, ... | langue spécialisée : vocabulaire scientifique, technique, professionnel, dictionnaire sectoriel |
Ce dictionnaire estdestiné à l'analyse automatique des langues. Il comporte des données spécifiques, des règles de grammaire lisibles par l'ordinateur. Son développement est évoqué dans "lexique".
"La construction de ces lexiques est une tâche coûteuse et de longue haleine, qui réclame des compétences lexicographiques et linguistiques encore peu répandues." Dès lors, certains chercheurs s'intéresssent aux possibilités de réutilisation et d'exploitation offertes par certains dictionnaires commerciaux disponibles sur support électroniques."(fontenelle)
| Utilisation du dictionnaire anglais-français Robert&Collins pour en extraire une base de données lexico-sémantiques. |
La R&D en ingénierie linguistique et en intelligence
artificielle se dirige également "vers une automatisation de la création
et/ou de la mise à jour de dictionnaires formalisés en les dérivant directement
ou indirectement soit de dictionnaires électroniques informatisés, soit
de corpus de textes". [«]
|
entrées lexicales |
outils lexicographiques |
Le logiciel fournit pour un mot une liste de synonymes (signification très proche), d'antonymes ( contraires), d'homonymes (même prononciation, sens différent).
[$]Glossaire de termes de ATO - Université UQAM http://www.ling.uqam.ca/ato/ |
||
[-] AFNOR 1987 - Association française de normalisation. Vocabulaire de la documentation. 2ième éd. Paris, AFNOR, 1987. |
||
[!] Lexique "Le Customer Value Management de A à Z" - Dominique Beaulieu, Directeur Marketing et Relations Partenaires Valoris - http://www.valoris.fr/glossaire.htm |
||
[$] Glossaire de La bible du Datamining - Didier Nakache, conservatoire national des arts et métiers de Lille - http://home.nordnet.fr/~dnakache/valeurc/index.shtml |
||
[^] Terminotique p.50 - A.Dussart - Terminologies nouvelles N°17 |
||
[*] L'informatisation de la fabrication des dictionnaires bilingues - p.157 - F. Knowles - les dictionnaires bilingues - Ed. Duculot/Aupelf uref |
||
[:] Corpus et Information - Cl.Rey - Recueil "Le corpus lexicographique" - p.252 - Ed. Duculot, Aupelf Uref - 1997 |
||
[::] Corpus et Information - Cl.Rey - Recueil "Le corpus lexicographique" - p.262 - Ed. Duculot, Aupelf Uref - 1997 |
||
[!] L'informatique dans les méthodes de constitution et de gestion du corpus lexicographique - A. Auger - Receuil "Le corpus lexicographique" - p.312 - Ed. Duculot, Aupelf Uref - 1997 |
||
[>] Base de données du Robert & Collins - T. Fontenelle - Terminologies nouvelles N°14 - http://linguistlist.org/diss/diss-html/10034.html |
||
[«] Dictionnaire morphologique du français - L.Bourdeau, F.Pinard - Colloque sur les industries de la langue - T1 p.265 - Montréal 1990 |
||
Dernière modification:
Ce site est optimisé pour Netscape 6.0 ou pour Internet
Explorer 4.0 ou ultérieur;
Et pour une résolution de 600/800 (Modifiez-la SI nécessaire).
Tous droits réservés © OTIL, 1999, 2002