|
|
Le langage se présente à nous humains comme un "instrument de communication entre les hommes. Il repose sur l'association de contenus de pensée à des sons produits par la parole. Cette association délimite le sens plus étroit et plus précis du mot langage." [**] La langue naturelle est l'objet de la linguistique.
Les differents domaines TIL s'intéressent aux langues naturelles, parlées et écrites. Pour que les ordinateurs puissent analyser, générer, traduire, interroger, traiter, manipuler des textes, de nombreuses connaissances sur le langage naturel sont requises : la prononciation, l'orthographe, la signification, l'emploi des mots; la combinaison des mots pour donner un sens à une phrase, etc.
L'interface machine-homme bénéficie aussi des recherches sur l'utilisation informatique des langues naturelles. La commande orale de son ordinateur, ou de son percolateur sera, dans un avenir très proche, une réalité .
Le principal frein au traitement automatique des langues naturelles est l'ambiguïté des langues.
Cette expression anglaise ("intégrant des fonctions du langage naturel" ) décrit une application informatique qui a été améliorée en termes de fonctionnalité, d'efficacité et/ou de présentation grâce à la mise en uvre de l'ingénierie linguistique.
|
TIL |
linguistique |
Le lemme ou forme canonique désigne la forme de référence d'un mot, c'est-à-dire la forme du mot sans les marques (dites marques de flexion) qui l'actualisent dans le discours.
|
Forme fléchie |
Lemme |
| mangera livres ornées |
manger livre orné |
La lemmatisation consiste à donner à un mot (accordé, conjugué) une forme canonique (forme de base = le lemme) pour, entre autres, quil puisse entrer dans un dictionnaire.
En TIL, le lexème désigne "tout élément ou signe constitutif dun texte (lettres de l'alphabet, mots ou groupes de mots, signes typographiques, chiffres et caractères spéciaux) en ce qu'il apparaît ou occurre dans un texte, et, par ce fait, participe à la signification ou à l'interprétation du texte". [$]
| Des lexèmes : a, manger, 1996, ?, (, ). |
En somme, il s'agit de tout caractère ou suite de caractères (dite chaîne de
caractères) reconnu et traitable par le système danalyse de texte en regard du
texte. Le lexème est alors un élément du lexique.
On parle aussi de forme lexicale ou d'unité lexicale.
Signalons qu'en linguistique, le lexème désigne l'unité minimale de signification ou unité de base du lexique.
| l'unité minimale de signification de mangerez, mangeons est mang. |
La linguistique se définit comme la science du langage, quelle étudie à travers la diversité des langues naturelles parlées sur la Terre.
Le statut scientifique de la linguistique implique un certain nombre de contraintes sur la méthode. En général, on procède par la proposition de modèles qu'on essaie de tester contre des données pour les infirmer. A la lumière des faiblesses découvertes, on modifie le modèle pour le tester encore, et ainsi de suite.
Elle étudie, indépendamment de telle ou telle langue particulière, les propriétés invariantes des langues et la manière dont elles évoluent. Elle part des faits de langue pour dégager des lois de fonctionnement et d'évolution qui ont une portée générale. Cette approche peut prendre la forme d'une grammaire générale.
Cette branche étudie des langues particulières (langlais, le portugais, ...) ou des groupes de langues (romanes, germaniques, ...). Elle décrit les critères extérieurs (les influences géographiques, religieuses, sociales, ...sur la langue) et les critères internes (sons, phonèmes, grammaire, ....)
Elle s'intéresse à "l'histoire de chaque langue prise en particulier. Les conditions extérieures, sociales de son histoire évoluent, et la langue elle-même, dans son système et dans son aspect matériel, se transforme". [*]
L'ingénierie linguistique (language engineering) est l'application de la connaissance des langues à l'élaboration de systèmes informatiques capables de reconnaître, de comprendre, d'interpréter et de produire du langage humain sous toutes ses formes. [/]
Une des théories utilisées en analyse sématique est celle de la logique d'Aristote. Cette logique universelle est celle qui structure tout système, notamment la société. Elle s'appuie sur 873 catégories logiques chez Aristote (le contraire, la réciporicité, ...) et 132 figures de réthorique dans le langage (la métaphore, l'hyperbole,...). "Un principe de cette logique est que les noms ne sont pas naturels, mais conventionnels, ce qui signifie qu'ils ne sont pas liés à l'essence de ce qu'ils représentent. Un autre principe fort est que les verbes permettent d'apporter un sens à une proposition." [(]
| La théorie d'Aristote est employée, entre autres, par le logiciel d'indexation et de recherche, Spirit. Il effectue de la sorte une analyse littéraire en s'appuyant sur des dictionnaires analogiques, de synonymies, terminologiques, ...[*] |
|
techniques linguistiques en Informatique Documentaire |
analyse sémantique |
[$] Glossaire de termes de ATO - Université UQAM http://www.ling.uqam.ca |
||
[*] La linguistique - Jean Perrot - PUF - Que sais-je 570 - 15e édition, 1996 |
|
|
[~] Aborder la linguistique - D. Maingueneau - Mémo 18 - Seuil - 1996 |
||
[**] La linguistique - Jean Perrot - PUF - Que sais-je 570 - 15e édition, 1996 |
||
[#] Introduction à la linguistique française - G. Lessard - 1996 http://qsilver.queensu.ca/french/Cours/215 |
||
[/] A world of understanding - Language technologies - CD-Rom Linglink, European Commission |
||
[(] Moteurs d'indextion et de recherche - C. Leloup - p.28 - Eyrolles - 1998 |
||
[!] Un logiciel qui pense pour vous - M. Lubkov - Archimag N°96 |
Dernière modification:
Ce site est optimisé pour Netscape 6.0 ou pour Internet
Explorer 4.0 ou ultérieur;
Et pour une résolution de 600/800 (Modifiez-la SI nécessaire).
Tous droits réservés © OTIL, 1999, 2002