|
| Etiquetage extrait du corpus
Enfants par AlethCat "je ne sais pas, les gens sont égoïstes peut-être."
que l'on peut représenter de la manière suivante :
|
Le but étant de catégoriser le mot ou groupe de mots à des fins de traitement, d'analyse, d'interprétation et de gestion, par des règles de généralisation.
Le choix des catégories est toujours orienté par une tâche, par l'objectif et les finalités de l'analyse de l'utilisateur.
| Les étiquettes {GENRE}, {NOMBRE} des noms et adjectifs ne sont pas forcément pertinentes pour une analyse énonciative mais elles sont utiles pour une analyse syntaxique (vérification des contraintes d'accord dans le groupe nominal). |
On parle aussi de description.
|
|
Analyse de texte |
structure de traits |
Répertoire intégré généralement au correcteur électronique qui décrit la manière de scinder les mots.
Protocole standard qui définit l'interface entre un serveur WEB (encore appelé serveur HTTP) et des programmes susceptibles de s'exécuter sur le serveur. Ces programmes peuvent être écrits à l'aide de tout type de langage (C/C++, Perl, Java...). [!]
| La génération dynamique d'une page WEB à partir d'une base de données en utilisant l'interface CGI s'effectue de la manière suivante : le serveur HTTP transmet la requête issue du navigateur client au programme CGI; ce dernier interroge la base de données et renvoie la réponse au navigateur sous forme de page HTML. |
En scientométrie désigne une classe de mots entre lesquels il existe des liens forts.
La "clustérisation" est une méthode statistique d'extraction de groupes (clusters) de termes ou d'expression de documents textuels. Cette méthode repose sur un calcul de fréquence d'apparition pour deux termes coexistants dans un même contexte (cooccurrence des termes). Un cluster peut alors être formé, par exemple, par les expressions "vache folle" , "encéphalite spongiforme bovine", etc. "Les clusters ainsi formés sont significatifs car ils mettent en évidence les thématiques présentes dans les documents." [#] . la clustérisation génère ainsi des dizaines, voire plus, de clusters d'expressions liés les uns aux autres. Les relations entre les clusters sont ensuite mises en scène graphiquement (carte) ou présentées en arborescence : la carthographie sémantique.
| Le logiciel CLUSTIFIER est un outil de classement par sujet post-intérrogation : les résultats de votre demande de recherche sont automatiquement regroupés par sujet. |
Le clustering est une méthode de recherche d'informations de type bottom
up (ascendante).
|
|
informatique documentaire |
Association habituelle de 2 ou plusieurs termes (collocats) au sein dun discours.
Heureux événement : 2 collocats |
Une collocation est une co-occurrence qui n'admet pas une variation dans l'association des mots et qui est en quelque sorte consacrée par la langue.
| petit boulot est une collocation car ni boulot ni petit ne peuvent varier; petit travail, petit job ne sont pas des co-occurrences. |
Une co-occurrence est un groupe de mots apparaissant fréquemment ensemble. En général, on peut faire varier au moins un des constituants sur l'axe paradigmatique. [-]
| verser un salaire est une co-occurrence car on peut dire :toucher, percevoir, recevoir un salaire ; toucher un salaire, une allocation, des revenus |
Logiciel pour convertir des fichiers dans des formats différents.
La concordance désigne le mot présenté avec les extraits ou portions de texte dans lesquels il apparaît. En dautres termes, il sagit de la liste de segments de texte (on parle de contextes) contenant le mot ou les groupes de mots ou encore les signes (des signes typographiques) désignés. Une concordance est une liste de contextes.
La concordance permet de trouver des informations le lexical ou contextuel sur le ou les mots pôles.
Ce terme est employé en Analyse de texte pour désigner la phrase ou la portion de
texte qui contient un ou les mots recherchés.
Cette procédure de recherche de termes via le contexte permet de décrire l'environnement
lexical et contextuel de ceux-ci. Elle se révèle utile pour la TAO, la correction
orthographique, l'interrogation de BD, etc.
Un corpus est un ensemble de productions linguistiques (langue écrite ou langue parlée) qui partagent les mêmes conditions de production, et qui seraient donc comparables entre elles. [*]
|
Rôle des corpus :
Corpus linguistiques :
Les linguistes relèvent un nombre dénoncés oraux et écrits représentatifs des usages dune communauté linguistique. Cet ensemble d'énoncés, appelé corpus, est lu et analysé par l'ordinateur.
Les corpus sont la documentation des linguistes actifs en traduction, terminologie et lexicographie. Vue l'évolution des langues, ils demandent une mise à jour.
Avec l'avènement de la micro-informatique et le développement des réseaux, la notion de corpus électronique s'est obscurcie. On emploie le terme corpus pour désigner souvent de vastes données textuelles électroniques.
Signalons la définition de Sinclair : "Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d'échantillon du langage." [<>]
Selon cette définition, reprise par EAGLES
(B)
|
De plus, "Un corpus
électronique est un corpus qui est encodé de manière
standardisée et homogène pour permettre des extractions non limitées à
l'avance. L'origine et la provenance des données langagières sont notées
".
En effet, "la simple la simple existence sur support électronique
ne fait pas d'un ensemble de textes un corpus électronique. Encore faut-il
que ce document obéisse à des conventions de représentation, de codage
répandues, voire consensuelles, qui permettent la transmission et la réutilisation
des données textuelles en cause." [>]
Un corpus de référence est conçu pour fournir une information en profondeur sur une langue. Il vise à être suffisamment étendu pour représenter toutes les variétés pertinentes du langage et de son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires, etc.
Corpus limité à une situation de communication, ou à un domaine. Il s'intéresse aux langages de spécialité, aux sous-langages. Selon Harris, ces sous-langages se caractérisent par un lexique limité et un nombre fini de schémas syntaxiques. [#]
Le corpus lexicographique est un ensemble documentaire structuré de données qui proviennent des sources linguistiques et des sources métalinguistiques.
|
occurrence |
corpus (généralité) |
Le choix du type d'analyse opérée sur le corpus dépend de l'utilisation de ses données.
L'analyse qualitative a pour but d'annoter un corpus d'informations morphologiques, syntaxiques, sémantiques ou/et pragmatiques.
Cette approche part du principe que la langue peut être en partie décrite comme une pseudo-technique.
Les informations quantitatives permettent de mieux connaître les mécanismes de la langue. Elles représentent une source exploitable en sociologie, en littérature,... et en TIL.
| L'analyse des probabilités de collocation
dans un corpus écrit traitant de commerce extérieur permet la
mise au point d'outils d'aide à la traduction mieux adaptés aux
utilisateurs.
Le repérage des concordances de termes dans un corpus anglais est utile pour la création de didacticiels d'apprentissage des langues |
Ces deux approches, qualitative et quantitative, ne sont pas spécialement antagonistes comme le montre la tendance récente dans la recherche d'analyse des corpus. [+]
| L'Equipe française TALANA (Traitement Automatique du Langage Naturel) poursuit ses recherches concernant le développement d'outils statistiques adaptés à l'objet linguistique et l'incorporation de ceux-ci dans des logiciels de traitement global du texte (cf. par exemple DECRYPT, THIEF, HYPERBASE). [\] |
Ces deux approches, qualitative et quantitative, ne sont pas spécialement antagonistes comme le montre la tendance récente dans la recherche d'analyse des corpus. [+]
| L'Equipe française TALANA (Traitement Automatique du Langage Naturel) poursuit ses recherches concernant le développement d'outils statistiques adaptés à l'objet linguistique et l'incorporation de ceux-ci dans des logiciels de traitement global du texte (cf. par exemple DECRYPT, THIEF, HYPERBASE). [\] |
A FAIRE
De nombreux systèmes d'étiquetage de corpus existent, et cela pour chaque langue. Cette diversité rend difficile la réutilisation par d'autres des corpus, et des lexiques, développés par une équipe de recherche. Les jeux d'étiquettes sont souvent incompatibles. Cette incompatibilité rend difficile, voire impossible, l'évaluation des étiqueteurs.
| Le projet MULTEXT a pour objectif de développer un modèle d'étiquetage grammatical. Ce modèle permet d'harmoniser l'étiquetage de corpus multilingues et de systématiser les stratégies d'étiquetage dans un contexte monolingue. [<] |
|
|
|
normalisation |
Corpus oral ou parlé : sert aux linguistes dans un but d'analyse. Il repose sur des transcriptions associant éventuellement l'alphabet phonétique et des signes spécifiques pour noter la prosodie.
:Corpus servant aux chercheurs en reconnaissance de la parole. Il est plus proche de l'enregistrement sonore.
Ce programme vérifie lorthographe des mots dans un document. Chaque mot est comparé à un fichier (corpus écrit) de mots correctement écrits. Ce fichier de référence peut être complété par lutilisateur. Mais nous avons tous testé les limites de ce genre doutil daide à la rédaction. Lordinateur accepte "Lire de mont a mie" pour "lire de mon amie". Pour corriger ce genre derreur, le correcteur orthographique doit s'adjoindre des connaissances syntaxiques et linguistiques.
Un correcteur grammatical met en oeuvre une vérification plus avancée que le correcteur orthographique, grâce à ses contrôles syntaxiques et sémantiques. Il analyse des parties de discours et distingue ainsi les erreurs dhomonymes (mon/mont), les fautes de frappe (mais/amis) et les formes pronominales (elles/elle).
On associe, généralement, à ce programme un correcteur stylistique qui vérifie le style : élimine les répétitions, constate les mêmes ensembles de mots souvent présents dans le texte, signale les phrases trop longues (comme celle-ci !), etc.
[*] Introduction à la linguistique français - Lessard - 1996 - Chapitre 1 http://qsilver.queensu.ca/french/Cours/215 |
||
[#] Veille et Informatique - J. Thil - Technologies Internationales nº41, juin 1998 |
||
[$] Les linguistiques de corpus - B.Habert, A.Salem, A.Nazarenko - p.33 - Armand Colin - 1997 |
||
[!] Data Mining sur Internet (Glossaire) - Didier Nakache - Conservatoire National des Arts et Métiers (CNAM de Lille) - http://home.nordnet.fr/~dnakache/probatoire |
||
Clustifier - démonstration disponible en ligne - Institute for Information Technology, National Research Council of Canada - http://www.iit.nrc.ca/Clustifier/ |
||
[<>] "A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" - Corpus Typology - Sinclair - EAGLES - 1994 - p.4 |
||
[>] Les linguistiques de corpus - Habert, Nazarenko, Salem - Armand Colin - 1997, p145 |
||
[#] The form of information in science, analysis of immunology sublanguage - Harris et al.- Kluwer Academic Publisher - 1989 |
||
[+] Corpus Linguistics - T.McEnery, A. Wilson - Qualitative and quantitative analysis - http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/contents.htm |
||
[\] Axe de recherche du groupe TALANA - http://talana.linguist.jussieu.fr |
||
[<] Etiquetage grammatical multilingue: modèle - Véronis, Khouri - http://www.lpl.univ-aix.fr/projects/multext/index.html |
||
[-] Utilisation de dictionnaire : apport de l'informatique dans les dictionnaires pour apprenants, projet Alexia - T. Selva, T. Charnier du Laboratoire d'Informatique de Besançon - http://comte.univ-fcomte.fr/RECHERCHE/P7/pub/Euralex98/Euralex.html |
Dernière modification:
Ce site est optimisé pour Netscape 6.0 ou pour Internet
Explorer 4.0 ou ultérieur;
Et pour une résolution de 600/800 (Modifiez-la SI nécessaire).
Tous droits réservés © OTIL, 1999, 2002