Lexique : L (suite)

retour lexique

retour index lexique

info supplémentaire


Lexicographie

Définition

La lexicographie s'occupe à recenser des mots et des expressions d'une langue déterminée. Les entrées lexicales du corpus lexical sont considérées sous leur forme et/ou leur signifiant.

Pour ce faire le lexicographe utilise

  • des sources de documentation : corpus linguistiques écrits ou oraux, bases de données terminologiques, dictionnaires, corpus métalinguistiques...
  • des outils de traitement des ressources textuelles (écrites et orales)
    • outils lexicométriques (statistique lexicale) : fréquence des occurrences, ...
    • outils linguistiques: analyseur morpho-syntaxique, sémantique, pragmatique, phonologique, désambiguïseur, lemmatiseur, ...
  • des outils propres à la rédaction et à la gestion du corpus lexical

Le développement de ressources et outils lexicographiques joue un rôle important dans la création et l'amélioration d'outils TIL.

Un poste de traduction sera performant s'il est muni d'un dictionnaire bilingue fiable, complet et adapté aux besoins des traducteurs.


L'utilisation de corpus en lexicographie

La constitution de corpus linguistiques écrits ou oraux et la mise au point d'outils d'analyse de ceux-ci ouvrent de nouvelles perspectives au lexicographe. "Cette quantité d'informations mises à sa disposition lui permet d'augmenter l'objectivité de ses observations." (Sinclair)

Le lexicographe effectue une analyse linguistique et/ou statistique de ses sources (textes, corpus écrits ou oraux)  appartenant à divers domaines (sociologique, littéraire, journalistique, etc.). Il peut ainsi produire

  • des listes de mots (par exemple, un lexique d'occurrences, un fichier lexical, liste de collocations, ...)
  • des  listes d'extraits de texte (liste de concordances)
  • des calculs statistiques (lexique avec fréquence d'apparition des occurrences, ...)
Procéder à une recherche des lignes de concordance pour le mot commerce dans différents corpus de type commercial, journalistique, littéraire, publicitaire, etc. permet de faire référence aux divers emplois de commerce proches de la réalité de la langue parlée ou écrite actuelle.

De ce fait, le corpus lexical basé sur des corpus de référence y gagne en objectivité, en exhaustivité et en qualité.

Corpus lexical néerlandais CELEX
En-dehors des traits orthographiques, la base de données en néerlandais CELEX comprend des représentations des propriétés phonologiques, morphologiques, syntaxiques et fréquentielles des lemmes. En ce qui concerne les données néerlandaises, les fréquences ont été désambigüisées sur la base du corpus de textes de l'Instituut voor Nederlandse Lexicologie.


Pouvoir élaborer automatiquement ou semi-automatiquement des entrées de dictionnaires sur base de corpus annotés (utilisés comme corpus de réfécences) permettrait une augmentation du nombre de dictionnaires, et principalement les dictionnaires spécialisés. Le coût de ceux-ci étant un frein à leur élaboration. [a]

 

 

 

corpus

corpus (généralité)

retour lexique


Ressources lexicographiques

  • les ressources informatisées à usage divers, cad les dictionnaires électroniques informatisés (Machine Readable Dictionary, MRD), les glossaires spécialisés, etc., sont consultées par un humain (étudiant, traducteur, linguiste).
- Dictionnaire Robert sur CD-Rom
- Banque de données terminologiques
  • les ressources lexicales destinées au TIL où les données sont formalisées, systématisées, explicitées et structurées. Leur utilisateur-consultant est un automate. Leur consultation permet d'effectuer une analyse linguistique (morphologique, syntaxique, sémantique). Les lexiques associés à des grammaires formelles permettent l'analyse automatique des langues.
- Dictionnaire électronique formalisé (Machine Tractable Dictionary) morphologique : Dictionnaire Allemand/Danois [\]
- Base de données lexicales destinée au système de traduction automatique : Lexique hollandais-français (LanTmark)[\\]

 

dictionnaire bilingue

retour lexique


Lexique

Un lexique électronique donne les informations linguistiques nécessaires au fonctionnement des systèmes de traitement automatique de la langue. Les ensembles de ces informations constituent les entrées lexicales du lexique. Associées à des règles, elles permettent aux systèmes TIL d'identifier les mots et de les associer à des données pertinentes pour le traitement informatique des langues.

Les lexiques MULTEXT se présentent sous la forme de tableaux en 3 colonnes séparées par une tabulation : la première colonne contient la forme du mot, la deuxième colonne contient le lemme et la troisième colonne contient l'information morpho-syntaxique associée à la forme. Cette information est conforme aux spécifications du projet MULTEXT/EAGLES.[+]

Types d' informations du lexique

1. Les informations lexicales [/]

  • les informations intralexicales de type morphologique, syntaxique, phonétique, sémantique, pragmatique
  • les informations interlexicales concernent les liens entre les entrées lexicales. On y retrouve des informations morphologiques (flexion, lemme, ...) ou relatives aux synonymes, antonymes, abréviations, collocations, etc. du mot.

2. La relation entre mot et information

En raison de l'ambiguïté des langues, un mot peut avoir plusieurs analyses morphologiques, sémantiques, ....On organise ce lien mot/information(s)

  • soit en considérant que chaque ambiguïté = une entrée lexicale
  • soit en tenant compte des régularités linguistiques : un mot donne automatiquement les autres formes morphologiques ou les autres sens.

3. Les régularités lexicales

Les régularités linguistiques rencontrées dans l'usage d'une langue permettent des généralisations au niveau de l'utilisation de la langue.

Si un locuteur français ne connaît pas le pluriel de bocal mais qu'il sait que cheval devient chevaux, il pourra en déduire bocaux.
Si la compréhension d'un mot lui échappe, il s'aide du contexte de la phrase pour comprendre ce terme.

Le lexique prend aussi en compte les régularités linguistiques. La représentation des régularités morphologiques et sémantico-syntaxiques évite la lourdeur, et les redondances, et confère une cohérence au lexique.

 

 

 

 

outils lexicographiques

retour lexique


Lemmatiseur

Ce programme permet de passer d'un mot portant des marques de flexion (le pluriel, la forme conjuguée d'un verbe) à sa forme de référence (lemme ou forme canonique). Grâce à cette forme de base l'ordinateur peut opérer une reconnaissance morphologique des mots d'un texte.

lemmatisation de "belle"[$]
solution 1
forme canonique beau
catégorie syntaxique nom
genre féminin
nombre singulier
solution 2
forme canonique belle
catégorie syntaxique adjectif
sous catégorie syntaxique aucune
genre féminin
nombre singulier
solution 3
forme canonique belle
catégorie nom
genre féminin
nombre singulier

Les programmes informatiques d'analyse de texte, d'indexation, de création de concordances, etc.. nécessite généralement l'utilisation d'un programme

 

 

 

 

outils lexicographiques

retour lexique


Programmes lexicométriques

Les résultats obtenus par l'analyse documentaire (recherche des contextes, d'occurrences, ...) sont interprétés de manière statistique. Voici quelques fonctions statistiques

  • le dictionnaire des fréquences, alphabétique et hiérarchique
  • les coefficients de corrélation
  • le tableau de distribution des fréquences
  • la mesure de la richesse lexicale, de l'accroissement du vocabulaire et de la proportion des hapax (mots employés une seule fois)
  • La corrélation chronologique : création d'une liste des mots qu'un auteur emploie de plus en plus et d'une liste de ceux qu'il abandonne progressivement.
  • La distance (ou connexion) lexicale se préoccupe de la présence - ou de l'absence - d'un mot dans deux textes dont on cherche à apprécier la connexion (textes "rapprochés" ou "éloignés").
  • indice de lisibilité
Base textuelle Batelier : le logiciel HYPERBASE compare l'emploi des mots ciel et azur chez Baudelaire, Rimbaud et Mallarmé. [<]

stat.gif (15717 octets)


Sur internet, on trouve de plus en plus des corpus de textes munis d'outils lexicographiques informatisés.

Sur le site d'AgoraConcordances / ITINERA ELECTRONICA
Virgile, Aeneis VII : texte de base; liste du vocabulaire; index inverse; affichage des contextes; texte français.


 

 

 

 

 

retour lexique


Accèdez à des renseignements supplémentaires disponibles dans les Ressources de l'Ìnventaire

[a] Explorations in Automatic thesaurus discovery  - Grefenstette G.- Kluwer - 1994

  retour

[$] lemmatiseur BDLEX de l'IRIT - http://www.irit.fr/

  retour

[\] Dictionnaire allemand-danois : Vocabulaire général et technique
Entrées: 6800 (technique)-15500 (général) - Format: ASCII
Ce dictionnaire a été développé pour des machines d'aide à la traduction ou de traduction automatique. Les lemmes allemands contiennent la classe du mot ainsi que les équivalents danois, des champs sujet et des indications de changement structurel allemand-danois (par exemple : objet direct -> PP (préposition 'xxx')). Source ELRA

retour

[\\] Lexique hollandais-français (LanTmark)
Vocabulaires génériques et spécialisés pour le transfert.
Ce lexique général hollandais-français est réparti selon les catégories suivantes : noms (14.000), verbes (6.000), adjectifs (5.000), adverbes (1.000). Le vocabulaire administratif comporte 30.000 noms et 2.000 verbes.
Le vocabulaire traitement de données dispose de 10 000 noms de transfert.
Chaque entrée contient des informations sur le domaine, désambiguisation sur la langue source, des traits, des actions sur la langue cible. Source ELRA

  retour

[+] Projet MULTEXT financé par la Commission européenne (LRE 62-050) - http://www.lpl.univ-aix.fr/projects/multext

  retour

[/] Classification extraite de "Traitement Automatique des Langues" p.35-74 P.Bouillon - Ed. Duculot/Aupelf uref - 1998

retour

[<] La base textuelle Batelier - Etienne Brunet - Colloque Les trois révolutions de l'imprimerie,16-21 nov 1998, Bibliothèque municipale de Lyon

  retour

 

   

Dernière modification:

Ce site est optimisé pour Netscape 6.0 ou pour Internet Explorer 4.0 ou ultérieur;
Et pour une résolution de 600/800 (Modifiez-la SI nécessaire).

Tous droits réservés © OTIL, 1999, 2002