Lexique : C

retour lexique

retour index lexique

info supplémentaire


Catégorisation

Cette procédure consiste à associer à un mot, à un groupe de mots, ou à tout objet relevant d'un texte (signes typographiques, segments de texte, caractères spéciaux), des informations 

  • d'ordre linguistique : les catégories grammaticales (nom, verbe, ...), les traits sémantiques (humain, animal, ...), les traits narratifs (argument, contre-argument, ...)
  • et/ou d'ordre sociologique : le domaine d'emploi, la réalité sociale sous-jacente, ...
Etiquetage extrait du corpus Enfants par AlethCat
"je ne sais pas, les gens sont égoïstes peut-être."

<SO!=31> je{PROPERS} ne {ADVNEG} sais {VIPR1S} pas {ADVNEG}, {PONCT-FAIBLE} les{DETDEF} gens{NOMMP} sont {VIPR3P} égoïstes {ADJMP} peut-être {ADV}. {PONCT-FORTE}

que l'on peut représenter de la manière suivante :

<diplôme=études-supérieures, âge=30>
{forme=je, catégorie=pronom, type=personnel}
{forme=ne, catégorie=adverbe, type=négation}
{forme=sais, catégorie=verbe, mode=indicatif, temps=présent, nombre=singulier, personne=1}
{forme=pas, catégorie=adverbe, type=négation}
{...}   [$]


Le but étant de catégoriser le mot ou groupe de mots à des fins de traitement, d'analyse, d'interprétation et de gestion, par des règles de généralisation.

Le choix des catégories est toujours orienté par une tâche, par l'objectif et les finalités de l'analyse de l'utilisateur.

Les étiquettes {GENRE}, {NOMBRE} des noms et adjectifs ne sont pas forcément pertinentes pour une analyse énonciative mais elles sont utiles pour une analyse syntaxique (vérification des contraintes d'accord dans le groupe nominal).

On parle aussi de description.

 

Analyse de texte

étiqueteur

structure de traits

retour lexique


Bibliothèque de césure

Répertoire intégré généralement au correcteur électronique qui décrit la manière de scinder les mots.

retour lexique


CGI Common Gateway Interface

Protocole standard qui définit l'interface entre un serveur WEB (encore appelé serveur HTTP) et des programmes susceptibles de s'exécuter sur le serveur. Ces programmes peuvent être écrits à l'aide de tout type de langage (C/C++, Perl, Java...). [!]

La génération dynamique d'une page WEB à partir d'une base de données en utilisant l'interface CGI s'effectue de la manière suivante : le serveur HTTP transmet la requête issue du navigateur client au programme CGI; ce dernier interroge la base de données et renvoie la réponse au navigateur sous forme de page HTML.

retour lexique


Cluster

En scientométrie désigne une classe de mots entre lesquels il existe des liens forts.

Clustering

La "clustérisation" est une méthode statistique d'extraction de groupes (clusters) de termes ou d'expression de documents textuels. Cette méthode repose sur un calcul de fréquence d'apparition pour deux termes coexistants dans un même contexte (cooccurrence des termes). Un cluster peut alors être formé, par exemple, par les expressions "vache folle" , "encéphalite spongiforme bovine", etc. "Les clusters ainsi formés sont significatifs car ils mettent en évidence les thématiques présentes dans les documents." [#] . la clustérisation génère ainsi des dizaines, voire plus, de clusters d'expressions liés les uns aux autres. Les relations entre les clusters sont ensuite mises en scène graphiquement (carte) ou présentées en arborescence : la carthographie sémantique.

Le logiciel CLUSTIFIER est un outil de classement par sujet post-intérrogation : les résultats de votre demande de recherche sont automatiquement regroupés par sujet.

Le clustering est une méthode de recherche d'informations de type bottom up (ascendante).

 

mind mapping

infométrie

informatique documentaire

retour lexique


 


Collocation

Association habituelle de 2 ou plusieurs termes (collocats) au sein d’un discours.   

Heureux événement : 2 collocats


Une collocation est une co-occurrence qui n'admet pas une variation dans l'association des mots et qui est en quelque sorte consacrée par la langue.

petit boulot est une collocation car ni boulot ni petit ne peuvent varier; petit travail, petit job ne sont pas des co-occurrences.

 

co-occurrence

outils lexicographiques

retour lexique


Co-occurrence

Une co-occurrence est un groupe de mots apparaissant fréquemment ensemble. En général, on peut faire varier au moins un des constituants sur l'axe paradigmatique. [-]

verser un salaire est une co-occurrence car on peut dire :toucher, percevoir, recevoir un salaire ; toucher un salaire, une allocation, des revenus

 

collocation

outils lexicographiques

retour lexique


Logiciel de conversion

Logiciel pour convertir des fichiers dans des formats différents.

retour lexique


Concordance

La concordance désigne le mot présenté avec les extraits ou portions de texte dans lesquels il apparaît. En d’autres termes, il s’agit de la liste de segments de texte (on parle de contextes) contenant le mot ou les groupes de mots ou encore les signes (des signes typographiques) désignés. Une concordance est une liste de contextes.

La concordance permet de trouver des informations le  lexical ou contextuel sur le ou les mots pôles.

 

concordancier

retour lexique


Contexte

Ce terme est employé en Analyse de texte pour désigner la phrase ou la portion de texte qui contient un ou les mots recherchés.
Cette procédure de recherche de termes via le contexte permet de décrire l'environnement lexical et contextuel de ceux-ci. Elle se révèle utile pour la TAO, la correction orthographique, l'interrogation de BD, etc.

retour lexique


Corpus

Un corpus est un ensemble de productions linguistiques (langue écrite ou langue parlée) qui partagent les mêmes conditions de production, et qui seraient donc comparables entre elles. [*]

  • les romans de Stendhal
  • les numéros de la revue l'Actualité parus pendant six mois
  • tout ce que dit une personne pendant une année
  • l'enregistrement des conversations durant un repas
  • toutes les dissertations remises dans un cours

Rôle des corpus :

  • dépouillement d'enquêtes
  • étude stylistique
  • étude phonétique
  • étude syntaxique
  • étude sémantique

Corpus linguistiques :

Les linguistes relèvent un nombre d’énoncés oraux et écrits représentatifs des usages d’une communauté linguistique. Cet ensemble d'énoncés, appelé corpus, est lu et analysé par l'ordinateur.

Les corpus sont la documentation des linguistes actifs en traduction, terminologie et lexicographie. Vue l'évolution des langues, ils demandent une mise à jour.


Corpus TIL

Définition

Avec l'avènement de la micro-informatique et le développement des réseaux, la notion de corpus électronique s'est obscurcie. On emploie le terme corpus pour désigner souvent de vastes données textuelles électroniques.

Signalons la définition de Sinclair : "Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d'échantillon du langage."  [<>]

Selon cette définition, reprise par EAGLES (B)
  • Le cd-rom du journal Le Monde rassemble des articles relevant de discours parfois éloignés (langue générale de la vie politique et sociale, langues spécialisées diverses : économie, météorologie, sport, ...). Il est donc plus adéquat de parler de la "collection du Monde" que du "corpus du Monde" .
  • Beltext est un corpus


De plus, "Un corpus électronique est un corpus qui est encodé de manière standardisée et homogène pour permettre des extractions non limitées à l'avance. L'origine et la provenance des données langagières sont notées ".
En effet, "la simple la simple existence sur support électronique ne fait pas d'un ensemble de textes un corpus électronique. Encore faut-il que ce document obéisse à des conventions de représentation, de codage répandues, voire consensuelles, qui permettent la transmission et la réutilisation des données textuelles en cause." [>]

Corpus de référence

Un corpus de référence est conçu pour fournir une information en profondeur sur une langue. Il vise à être suffisamment étendu pour représenter toutes les variétés pertinentes du langage et de son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires, etc.

Corpus spécialisé

Corpus limité à une situation de communication, ou à un domaine. Il s'intéresse aux langages de spécialité, aux sous-langages. Selon Harris, ces sous-langages se caractérisent par un lexique limité et un nombre fini de schémas syntaxiques. [#]

Corpus lexicographique

Le corpus lexicographique est un ensemble documentaire structuré de données qui proviennent des sources linguistiques et des sources métalinguistiques.

  • Corpus linguistique
    • La banque de textes ne contient que du texte intégral et offre l'avantage d'illustrer les mots dans leurs fonctionnement réel.
    • Le fichier lexical est constitué de fragments textuels puisés dans de nombreuses sources linguistiques. Il se compose de fiches lexicales.
  • Corpus métalinguistique
    • L'index des formes étudiées reprend toutes les formes traitées dans les ouvrages métalinguistiques-sources.
    • Le fichier métalinguistique qui contient des commentaires métalinguistiques est le résultat d'une sélection opérée dans les sources.

occurrence

outils lexicographiques

utilisation des corpus en lexicographie

corpus (généralité)

retour lexique


Analyse d'un corpus

Le choix du type d'analyse opérée sur le corpus dépend de l'utilisation de ses données.

L'analyse qualitative

L'analyse qualitative a pour but d'annoter un corpus d'informations morphologiques, syntaxiques, sémantiques ou/et pragmatiques.

L'analyse quantitative

Cette approche part du principe que la langue peut être en partie décrite comme une pseudo-technique.

  • L'analyse documentaire : localisation de mots, de séquences de mots, de parties de texte comprenant un mot (contexte), etc.
  • L'analyse lexicométrique : calcul de la fréquence des termes, indication de la probabilité d'emploi d'un terme dans un contexte particulier,...

Les informations quantitatives permettent de mieux connaître les mécanismes de la langue. Elles représentent une source exploitable en sociologie, en littérature,... et en TIL.

L'analyse des probabilités de collocation dans un corpus écrit traitant de commerce extérieur permet la mise au point d'outils d'aide à la traduction mieux adaptés aux utilisateurs.

Le repérage des concordances de termes dans un corpus anglais est utile pour la création de didacticiels d'apprentissage des langues


Ces deux approches, qualitative et quantitative, ne sont pas spécialement antagonistes comme le montre la tendance récente dans la recherche d'analyse des corpus. [+]

L'Equipe française TALANA (Traitement Automatique du Langage Naturel) poursuit ses recherches concernant le développement d'outils statistiques adaptés à l'objet linguistique et l'incorporation de ceux-ci dans des logiciels de traitement global du texte (cf. par exemple DECRYPT, THIEF, HYPERBASE). [\]

Ces deux approches, qualitative et quantitative, ne sont pas spécialement antagonistes comme le montre la tendance récente dans la recherche d'analyse des corpus. [+]

L'Equipe française TALANA (Traitement Automatique du Langage Naturel) poursuit ses recherches concernant le développement d'outils statistiques adaptés à l'objet linguistique et l'incorporation de ceux-ci dans des logiciels de traitement global du texte (cf. par exemple DECRYPT, THIEF, HYPERBASE). [\]

 

 

 

 

retour lexique


Corpus écrit

Corpus annoté

A FAIRE

Normalisation du système d'étiquetage

De nombreux systèmes d'étiquetage de corpus existent, et cela pour chaque langue. Cette diversité rend difficile la réutilisation par d'autres des corpus, et des lexiques, développés par une équipe de recherche. Les jeux d'étiquettes sont souvent incompatibles. Cette incompatibilité rend difficile, voire impossible, l'évaluation des étiqueteurs.

Le projet MULTEXT a pour objectif de développer un modèle d'étiquetage grammatical. Ce modèle permet d'harmoniser l'étiquetage de corpus multilingues et de systématiser les stratégies d'étiquetage dans un contexte monolingue. [<]

 

 

 

normalisation

catégorisation

retour lexique


Corpus oral

Corpus oral ou parlé : sert aux linguistes dans un but d'analyse. Il repose sur des transcriptions associant éventuellement l'alphabet phonétique et des signes spécifiques pour noter la prosodie.

Corpus de parole

:Corpus servant aux chercheurs en reconnaissance de la parole. Il est plus proche de l'enregistrement sonore.

 

 

 

 

 

retour lexique


Correcteur orthographique

Ce programme vérifie l’orthographe des mots dans un document. Chaque mot est comparé à un fichier (corpus écrit) de mots correctement écrits. Ce fichier de référence peut être complété par l’utilisateur. Mais nous avons tous testé les limites de ce genre d’outil d’aide à la rédaction. L’ordinateur accepte "Lire de mont a mie" pour "l’ire de mon amie". Pour corriger ce genre d’erreur, le correcteur orthographique doit  s'adjoindre des connaissances syntaxiques et linguistiques.

 

Analyse de texte

retour lexique


Correcteur grammatical, stylistique

Un correcteur grammatical met en oeuvre une vérification plus avancée que le correcteur orthographique, grâce à ses contrôles syntaxiques et sémantiques. Il analyse des parties de discours et distingue ainsi les erreurs d’homonymes (mon/mont), les fautes de frappe (mais/amis) et les formes pronominales (elles/elle).

On associe, généralement, à ce programme un correcteur stylistique qui vérifie le style : élimine les répétitions, constate les mêmes ensembles de mots souvent présents dans le texte, signale les phrases trop longues (comme celle-ci !), etc.

 

 

 

retour lexique


Accèdez à des renseignements supplémentaires disponibles dans les Ressources de l'Ìnventaire

[*] Introduction à la linguistique français - Lessard - 1996 - Chapitre 1 http://qsilver.queensu.ca/french/Cours/215

retour

[#] Veille et Informatique - J. Thil - Technologies Internationales nº41, juin 1998

  retour

[$] Les linguistiques de corpus - B.Habert, A.Salem, A.Nazarenko - p.33 - Armand Colin - 1997

retour

[!] Data Mining sur Internet (Glossaire) - Didier Nakache - Conservatoire National des Arts et Métiers (CNAM de Lille) - http://home.nordnet.fr/~dnakache/probatoire

  retour

Clustifier - démonstration disponible en ligne - Institute for Information Technology, National Research Council of Canada - http://www.iit.nrc.ca/Clustifier/

  retour

[<>] "A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" - Corpus Typology - Sinclair - EAGLES - 1994 - p.4

  retour

[>] Les linguistiques de corpus - Habert, Nazarenko, Salem - Armand Colin - 1997, p145

  retour

[#] The form of information in science, analysis of immunology sublanguage - Harris et al.- Kluwer Academic Publisher - 1989

  retour

[+] Corpus Linguistics - T.McEnery, A. Wilson - Qualitative and quantitative analysis - http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/contents.htm

  retour

[\] Axe de recherche du groupe TALANA -  http://talana.linguist.jussieu.fr

  retour

[<] Etiquetage grammatical multilingue: modèle - Véronis, Khouri - http://www.lpl.univ-aix.fr/projects/multext/index.html

  retour

[-] Utilisation de dictionnaire : apport de l'informatique dans les dictionnaires pour apprenants, projet Alexia - T. Selva, T. Charnier du Laboratoire d'Informatique de Besançon - http://comte.univ-fcomte.fr/RECHERCHE/P7/pub/Euralex98/Euralex.html

  retour

Dernière modification:

Ce site est optimisé pour Netscape 6.0 ou pour Internet Explorer 4.0 ou ultérieur;
Et pour une résolution de 600/800 (Modifiez-la SI nécessaire).

Tous droits réservés © OTIL, 1999, 2002