|
| Le mot marche est une ambiguïté catégorielle : la marche d'escalier; il marche (verbe marcher) |
| On écoute les bruits de la fenêtre = on écoute les bruits que fait la fenêtre ou les bruits provenant par la fenêtre |
Pour l'esprit humain, cette phrase replacée dans son contexte ne pose pas de difficulté de compréhension. Pour un programme de TAO, d'analyse de contenu, etc., il faudra d'abord lever cette ambiguïté.
Toutes les filles de la famille X aiment un homme = Elles aiment un homme différent ou un même homme ? |
| Le touriste était dans l'avion et il n'a pas décollé : il = le touriste ou l'avion ? |
|
|
Analyse de texte |
Terme générique qui désigne, en Analyse de texte "un programme ou un ensemble de programmes informatiques fournissant des renseignements analytiques sur des mots donnés ou sur un ou plusieurs textes.
Les informations fournies par un analyseur peuvent être
- d'ordre numérique : des indices numériques sur la répartition
d'un mot donné dans un texte, par exemple
- d'ordre symbolique
- des représentations graphiques mettant en évidence la structure syntaxique
ou le sens des énoncés." [$]
C'est la finalité de l'analyse dun texte qui justifie la mise en uvre dun type danalyseur ou la combinaison de plusieurs analyseurs.
|
|
analyse de texte |
analyseur linguistique |
"Programme ou ensemble de programmes informatiques
visant à produire des représentations (sous forme symbolique
ou graphique) caractéristiques des phénomènes linguistiques
(morphologie, syntaxe, sémantique et pragmatique) dans un texte, et cela
dans le but d'en mettre en évidence le ou les sens.
On trouve les analyseurs linguistiques aussi bien dans le domaine du traitement
des données linguistiques écrites que dans celui du traitement de la parole.
" [$$]
|
|
analyse de texte |
analyseur |
Présent dans de nombreuses applications TIL, ce programme
ou ensemble de programmes informatiques décompose le texte en une suite
de signaux numériques. Le texte est alors considéré comme
un ensemble de phénomènes dont les occurrences peuvent faire l'objet d'une
analyse statistique et mathématique.
Des informations lexicales, stylistiques (informations de structure) sont
ainsi disponibles.
L'analyseur statistique peut avoir une
- approche quantitative : indices sur les données brutes
(nombre d'occurrences, ..)
- approche quantitative et qualitative : indices sur
des données catégorisées
L'analyseur lexicométrique
ou lexico-statistique : l'analyseur effectue des calculs sur les mots
pris hors de leur contexte. L'approche est de type quantitatif. L'analyse
lexicométrique permettra, par exemple, de vérifier la richesse objective
d'un texte en en comparant le vocabulaire à des listes de référence.
|
|
analyse de texte |
analyseur |
catégorisation |
L'occurrence d'anaphore est un élément linguistique qui fait référence
à un autre élément comme dans une proposition subordonnée (1),
ou par l'emploi des pronoms (2) ou d'autres formes plus difficiles
à identifier (3).
| (1) Il a emprunté la voiture qui (la
voiture) était parquée dans le garage. (2) Elle est allée écouter un concert. Elle l'a (le concert) apprécié. (3) Hier, Sylvie travaillait, tout comme Dominique (travaillait). |
La fréquence naturelle de l'occurrence d'anaphore dans le langage, tant écrit que parlé, montre la difficulté de programmer un ordinateur pour l'analyse et la compréhension d'un énoncé.
Un antidictionnaire est une liste de mot que l'on ne prend pas en compte
lors d'une opération TIL. Effectuer une indexation intégrale sur les mots
d'un texte avec support dun antidictionnaire, c'est indexer tous
les mots exceptés les termes repris dans l'antidictionnaire.
Mot, syntagme, qui par le sens, s'oppose directement à un autre.
chaud et froid - anxiété et sérénité |
lourd et léger - plein et vide |
Le concept d'antonymie comme fait linguistique est souvent utilisé en lexicographie et en analyse sémantique.
LAPI a été élaboré entre 1896 et 1900 par lAssociation phonétique internationale dont les professeurs E.Sievers, D.Jones, P.Passy....Cet alphabet est applicable à toutes les langues. Il obéit au principe quà chaque son différent identifié corresponde un signe différent. Tout ce qui est prononcé est noté, notamment les liaisons.
Code standard américain d'échange d'informations
Ce code a été créé pour faciliter la transmission d'informations entre ordinateurs. Composé d'un code à 7 bits (+ un bit de contrôle de parité), il offre 128 combinaisons.
Dans ce code, chaque caractère est représenté par un jeu de 7 chiffres binaires, de sorte qu'avec 7 bits, on peut coder 27soit 128 caractères distincts
Dans ce code, chaque caractère est représenté par un jeu de 8 chiffres binaires, de sorte qu'avec 7 bits, on peut coder 28 soit 256 caractères distincts.
Le développement des applications bureautique a poussé les constructeurs
à proposer un code à 8 bits.
Les 256 combinaisons qu'il génère se répartissent en 2 groupes : d'une
part, un groupe de 128 caractères (7 bits + 8e bit à 0) compatible avec
le code ASCII et, d'autre part, un groupe de 128 caractères (7 bits +
8e bit à 1) comprenant les caractères spécifiques de langues particulières,
par exemple les caractères accentués des langues d'Europe occidentale.
Si le code à 8 bits a permis le respect des particularités de certaines langues (les accents en français, par exemple), il persiste cependant un problème face à certains caractères, comme le i sans point en turc et les signes diacritiques de la langue vietnamienne.
Un fichier ASCII est un document qui ne contient aucun élément de formatage ou de représentation.
Analyse de texte par ordinateur
| [I] A world of understanding - Language technologies - CD-Rom Linglink, European Commission | ||
| [$]Glossaire de termes de ATO - Université UQAM http://www.ling.uqam.ca/sato/index.htm | ||
| [$$] Glossaire de termes de ATO - Université UQAM http://www.ling.uqam.ca/sato/index.htm | ||
| [#] Dictionnaire de l'informatique et de l'internet - Micro Applications - 1998 | ||
| [*] API : Dernière
version API disponible sur le site de University of Glasgow http://www.arts.gla.ac.uk/IPA/ipa.html Les fichiers sonores de l'université de Lausanne, Section linguistique http://www.unil.ch/ling/phon/api2.html |
Dernière modification:
Ce site est optimisé pour Netscape 6.0 ou pour Internet
Explorer 4.0 ou ultérieur;
Et pour une résolution de 600/800 (Modifiez-la SI nécessaire).
Tous droits réservés © OTIL, 1999, 2002