Lexique : A

retour lexique

retour index lexique

info supplémentaire


Algorithme

Mise en œuvre d'une succession finie d'actions élémentaires permettant de résoudre un problème.
Les étapes du développement d'un algorithme :

  • l'analyse du problème
  • la conception d'un programme informatique
  • la programmation qui, à l'aide d'instructions écrites en un langage de programmation déterminé, définit les actions de l'algorithme.

 

langage de programmation

retour lexique


Alignement

L'alignement de textes est le processus consistant à mettre en parallèle plusieurs versions linguistiques d'un texte afin de pouvoir identifier les locutions, les expressions ou les termes équivalents. [I]

 

retour lexique


Ambiguïté

Caractère de ce qui présente plusieurs sens possibles.

Les langues naturelles sont par nature ambiguës. Cette ambiguïté enrichit la langue, pensons aux calembours, aux phrases suscitant des quiproquos, ... Mais les phénomènes d'ambiguïté soulèvent de nombreux problèmes pour le TIL.

  • L'ambiguïté lexicale se situe au niveau du mot; elle est de nature catégorielle, ou sémantique (homonymie, polysémie, ..). Un logiciel de traduction , un correcteur  seront performants si l'ambiguïté est résolue.
Le mot marche est une ambiguïté catégorielle : la marche d'escalier; il marche (verbe marcher)
  • L'ambiguïté syntaxique se situe au niveau de la structure des énoncés
On écoute les bruits de la fenêtre = on écoute les bruits que fait la fenêtre ou les bruits provenant par la fenêtre

Pour l'esprit humain, cette phrase replacée dans son contexte ne pose pas de difficulté de compréhension. Pour un programme de TAO, d'analyse de contenu, etc., il faudra d'abord lever cette ambiguïté.

  • L'ambiguïté sémantique se situe au niveau du sens des mots et occasionne plusieurs représentations logiques d'un énoncé.

Toutes les filles de la famille X aiment un homme = Elles aiment un homme différent ou un même homme ?

  • L'ambiguïté pragmatique est levée par des connaissances extra-linguistiques.
Le touriste était dans l'avion et il n'a pas décollé : il = le touriste ou l'avion ?

 

langue naturelle

Analyse de texte

désambiguïseur

retour lexique


Analyseur

Terme générique qui désigne, en Analyse de texte "un programme ou un ensemble de programmes informatiques fournissant des renseignements analytiques sur des mots donnés ou sur un ou plusieurs textes.

Les informations fournies par un analyseur peuvent être
- d'ordre numérique :  des indices numériques sur la répartition d'un mot donné dans un texte, par exemple
- d'ordre symbolique
- des représentations graphiques mettant en évidence la structure syntaxique ou le sens des énoncés." [$]

C'est la finalité de l'analyse d’un texte qui justifie la mise en œuvre d’un type d’analyseur ou la combinaison de plusieurs analyseurs.

 

analyse de texte

analyseur linguistique

analyseur statistique

retour lexique


Analyseur linguistique

"Programme ou ensemble de programmes informatiques visant à produire des représentations (sous forme symbolique ou graphique) caractéristiques des phénomènes linguistiques (morphologie, syntaxe, sémantique et pragmatique) dans un texte, et cela dans le but d'en mettre en évidence le ou les sens.
On trouve les analyseurs linguistiques aussi bien dans le domaine du traitement des données linguistiques écrites que dans celui du traitement de la parole. " [$$]

 

analyse de texte

analyseur

analyseur statistique

retour lexique


Analyseur statistique

Présent dans de nombreuses applications TIL, ce programme ou ensemble de programmes informatiques décompose le texte en une suite de signaux numériques. Le texte est alors considéré comme un ensemble de phénomènes dont les occurrences peuvent faire l'objet d'une analyse statistique et mathématique.
Des informations lexicales, stylistiques (informations de structure) sont ainsi disponibles.

L'analyseur statistique peut avoir une
- approche quantitative : indices sur les données brutes (nombre d'occurrences, ..)
- approche quantitative et qualitative : indices sur des données catégorisées

L'analyseur lexicométrique ou lexico-statistique : l'analyseur effectue des calculs sur les mots pris hors de leur contexte. L'approche est de type quantitatif. L'analyse lexicométrique permettra, par exemple, de vérifier la richesse objective d'un texte en en comparant le vocabulaire à des listes de référence.

 

analyse de texte

analyseur

catégorisation

analyse de corpus

lexicographie

corpus

retour lexique


Anaphore

L'occurrence d'anaphore est un élément linguistique qui fait référence à un autre élément comme dans une proposition subordonnée (1), ou par l'emploi des pronoms (2) ou d'autres formes plus difficiles à identifier (3).

 

(1) Il a emprunté la voiture qui (la voiture) était parquée dans le garage.
(2) Elle est allée écouter un concert. Elle l'a
(le concert) apprécié.
(3) Hier, Sylvie travaillait, tout comme Dominique (travaillait).

La fréquence naturelle de l'occurrence d'anaphore dans le langage, tant écrit que parlé, montre la difficulté de programmer un ordinateur pour l'analyse et la compréhension d'un énoncé.

 

retour lexique


Antidictionnaire

Un antidictionnaire est une liste de mot que l'on ne prend pas en compte lors d'une opération TIL. Effectuer une indexation intégrale sur les mots d'un texte avec support d’un antidictionnaire, c'est indexer tous les mots exceptés les termes repris dans  l'antidictionnaire.

 

 

indexation

retour lexique


Antonyme

Mot, syntagme, qui par le sens, s'oppose directement  à un autre.

  • L'antonymie de complémentarité : choix binaire et simple entre 2 termes

chaud et froid - anxiété et sérénité

  • L'antonymie scalaire : l'opposition tourne autour d'un point de référence.

lourd et léger - plein et vide


Le concept d'antonymie comme fait linguistique est souvent utilisé en lexicographie et en analyse sémantique.

 

 

retour lexique


API - Alphabet phonétique international

L’API a été élaboré entre 1896 et 1900 par l’Association phonétique internationale dont les professeurs E.Sievers, D.Jones, P.Passy....Cet alphabet est applicable à toutes les langues. Il obéit au principe qu’à chaque son différent identifié corresponde un signe différent. Tout ce qui est prononcé est noté, notamment les liaisons.

 

 

retour lexique


ASCII - American Standard Code for Information Interchange

Code standard américain d'échange d'informations

Ce code a été créé pour faciliter la transmission d'informations entre ordinateurs. Composé d'un code à 7 bits (+ un bit de contrôle de parité), il offre 128 combinaisons.

Code à 7 bits

Dans ce code, chaque caractère est représenté par un jeu de 7 chiffres binaires, de sorte qu'avec 7 bits, on peut coder 27soit 128 caractères distincts

  • ensemble de chiffres représentés par 7 bits : de 0 à 127, soit 128 possibilités
  • les codes 0 à 32 sont réservés aux caractères de commande, de saut de lignes,...
  • les codes 33 à 127 sont attribués aux majuscules, aux minuscules, aux chiffres et à quelques caractères spéciaux.[#]

Code à 8 bits

Dans ce code, chaque caractère est représenté par un jeu de 8 chiffres binaires, de sorte qu'avec 7 bits, on peut coder 28 soit 256 caractères distincts.

  • ensemble de chiffres représentés par 8 bits : de 0 à 255, soit 256 possibilités
  • les codes 0 à 32 sont réservés aux caractères de commande, de saut de lignes,...
  • extension de la présence des caractères spéciaux.

Le développement des applications bureautique a poussé les constructeurs à proposer un code à 8 bits.
Les 256 combinaisons qu'il génère se répartissent en 2 groupes : d'une part, un groupe de 128 caractères (7 bits + 8e bit à 0) compatible avec le code ASCII et, d'autre part, un groupe de 128 caractères (7 bits + 8e bit à 1) comprenant les caractères spécifiques de langues particulières, par exemple les caractères accentués des langues d'Europe occidentale. 

Si le code à 8 bits a permis le respect des particularités de certaines langues (les accents en français, par exemple), il persiste cependant un problème face à certains caractères, comme le i sans point en turc et les signes diacritiques de la langue vietnamienne.

Fichier ASCII

Un fichier ASCII est un document qui ne contient aucun élément de formatage ou de représentation.

 

bit

iso-latin-1

diacritique

normalisation

retour lexique

ATO

Analyse de texte par ordinateur

 

 

retour lexique


Accèdez à des renseignements supplémentaires disponibles dans les Ressources de l'Ìnventaire

[I] A world of understanding - Language technologies - CD-Rom Linglink, European Commission   retour
[$]Glossaire de termes de ATO - Université UQAM http://www.ling.uqam.ca/sato/index.htm

retour

[$$] Glossaire de termes de ATO - Université UQAM http://www.ling.uqam.ca/sato/index.htm retour
[#] Dictionnaire de l'informatique et de l'internet - Micro Applications - 1998 retour
[*] API : Dernière version API disponible sur le site de University of Glasgow http://www.arts.gla.ac.uk/IPA/ipa.html
Les fichiers sonores de l'université de Lausanne, Section linguistique http://www.unil.ch/ling/phon/api2.html
  retour


Dernière modification:

Ce site est optimisé pour Netscape 6.0 ou pour Internet Explorer 4.0 ou ultérieur;
Et pour une résolution de 600/800 (Modifiez-la SI nécessaire).

Tous droits réservés © OTIL, 1999, 2002