|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Un poste de traduction sera performant s'il est muni d'un dictionnaire bilingue fiable, complet et adapté aux besoins des traducteurs. |
La constitution de corpus linguistiques écrits ou oraux et la mise au point d'outils d'analyse de ceux-ci ouvrent de nouvelles perspectives au lexicographe. "Cette quantité d'informations mises à sa disposition lui permet d'augmenter l'objectivité de ses observations." (Sinclair)
Le lexicographe effectue une analyse linguistique et/ou statistique de ses sources (textes, corpus écrits ou oraux) appartenant à divers domaines (sociologique, littéraire, journalistique, etc.). Il peut ainsi produire
| Procéder à une recherche des lignes de concordance pour le mot commerce dans différents corpus de type commercial, journalistique, littéraire, publicitaire, etc. permet de faire référence aux divers emplois de commerce proches de la réalité de la langue parlée ou écrite actuelle. |
De ce fait, le corpus lexical basé sur des corpus de référence y gagne en objectivité, en exhaustivité et en qualité.
| Corpus lexical néerlandais CELEX En-dehors des traits orthographiques, la base de données en néerlandais CELEX comprend des représentations des propriétés phonologiques, morphologiques, syntaxiques et fréquentielles des lemmes. En ce qui concerne les données néerlandaises, les fréquences ont été désambigüisées sur la base du corpus de textes de l'Instituut voor Nederlandse Lexicologie. |
Pouvoir élaborer automatiquement ou semi-automatiquement
des entrées de dictionnaires sur base de corpus annotés (utilisés comme
corpus de réfécences) permettrait une augmentation du nombre de dictionnaires,
et principalement les dictionnaires spécialisés. Le coût de ceux-ci étant
un frein à leur élaboration. [a]
| - Dictionnaire Robert sur CD-Rom - Banque de données terminologiques |
| - Dictionnaire électronique formalisé
(Machine Tractable Dictionary) morphologique : Dictionnaire Allemand/Danois
[\] - Base de données lexicales destinée au système de traduction automatique : Lexique hollandais-français (LanTmark)[\\] |
Un lexique électronique donne les informations linguistiques nécessaires au fonctionnement des systèmes de traitement automatique de la langue. Les ensembles de ces informations constituent les entrées lexicales du lexique. Associées à des règles, elles permettent aux systèmes TIL d'identifier les mots et de les associer à des données pertinentes pour le traitement informatique des langues.
| Les lexiques MULTEXT se présentent sous la forme de tableaux en 3 colonnes séparées par une tabulation : la première colonne contient la forme du mot, la deuxième colonne contient le lemme et la troisième colonne contient l'information morpho-syntaxique associée à la forme. Cette information est conforme aux spécifications du projet MULTEXT/EAGLES.[+] |
1. Les informations lexicales [/]
2. La relation entre mot et information
En raison de l'ambiguïté des langues, un mot peut avoir plusieurs analyses morphologiques, sémantiques, ....On organise ce lien mot/information(s)
3. Les régularités lexicales
Les régularités linguistiques rencontrées dans l'usage d'une langue permettent des généralisations au niveau de l'utilisation de la langue.
| Si un locuteur français ne connaît pas le pluriel
de bocal mais qu'il sait que cheval devient
chevaux, il pourra en déduire bocaux.
Si la compréhension d'un mot lui échappe, il s'aide du contexte de la phrase pour comprendre ce terme. |
Le lexique prend aussi en compte les régularités linguistiques. La représentation des régularités morphologiques et sémantico-syntaxiques évite la lourdeur, et les redondances, et confère une cohérence au lexique.
|
|
|
Ce programme permet de passer d'un mot portant des marques de flexion (le pluriel, la forme conjuguée d'un verbe) à sa forme de référence (lemme ou forme canonique). Grâce à cette forme de base l'ordinateur peut opérer une reconnaissance morphologique des mots d'un texte.
| lemmatisation de "belle"[$] | |||||||||||
| solution 1 |
|
||||||||||
| solution 2 |
|
||||||||||
| solution 3 |
|
||||||||||
Les programmes informatiques d'analyse de texte, d'indexation, de création de concordances, etc.. nécessite généralement l'utilisation d'un programme
|
|
|
Les résultats obtenus par l'analyse documentaire (recherche des contextes, d'occurrences, ...) sont interprétés de manière statistique. Voici quelques fonctions statistiques
| Base textuelle Batelier
: le logiciel HYPERBASE compare l'emploi des mots
ciel et azur chez Baudelaire, Rimbaud et Mallarmé. [<]
|
Sur internet, on trouve de plus en plus des corpus de textes munis
d'outils lexicographiques informatisés.
|
Sur le site d'AgoraConcordances / ITINERA
ELECTRONICA |
[a] Explorations in Automatic thesaurus discovery - Grefenstette G.- Kluwer - 1994 |
||
[\] Dictionnaire allemand-danois
: Vocabulaire général et technique |
||
[\\] Lexique hollandais-français
(LanTmark) |
||
[+] Projet MULTEXT financé par la Commission européenne (LRE 62-050) - http://www.lpl.univ-aix.fr/projects/multext |
||
[/] Classification extraite de "Traitement Automatique des Langues" p.35-74 P.Bouillon - Ed. Duculot/Aupelf uref - 1998 |
||
[<] La base textuelle Batelier - Etienne Brunet - Colloque Les trois révolutions de l'imprimerie,16-21 nov 1998, Bibliothèque municipale de Lyon |
||
|
Dernière modification:
Ce site est optimisé pour Netscape 6.0 ou pour Internet
Explorer 4.0 ou ultérieur;
Et pour une résolution de 600/800 (Modifiez-la SI nécessaire).
Tous droits réservés © OTIL, 1999, 2002