|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
OAT (Outils traduc.) |
TAO (traduc. assistée) |
Les technologies conceptuelles (graphes conceptuels) relève des techniques de l'intelligence artificielle. Elles "s'appuient sur une analyse conceptuelle utilisant une nomenclature de structures syntactio-sémantiques, un ensemble de métaconnaissances et un ensemble de règles d'inférence. Le goulet d'étranglement de cette technologie, très performante, est la mise au point d'un dictionnaire conceptuel par domaine (par exemple : accidentologie automobile et domestique)." [+]
Les fonctions de base d'une telle indexation en texte intégral sont :
- Eliminer les mots vides : en général,
à l'aide d'un dictionnaire de "mots vides" (le, de,
dans, mon, au, ...).
Cette opération d'indexation, si elle est basée uniquement
sur une reconnaissance de chaîne de cararatères, génère
un nombre impressionnant d'entrées (les termes accordés,
les formes conjugées des verbes, etc.).[!]
La recherche produira beaucoup de bruit
et de silence. Pour être pertinente, l'indexation devra faire
appel à des techniques linguistiques.
- Indiquer la position du mot : pour chaque mot, le fichier index indiquera le numéro du paragraphe, phrase, section, .... Cette indexation permettra de rechercher deux termes non éloignés.
| Processus d'indexation du texte : première étape du logiciel de recherche RetrievalWare [0] L'indexation APRP (Adaptive Pattern
Recognition Processing) utilise une technologie fondée
sur la reconnaissance des formes par un réseau
neuronal, appliquée au codage binéaire des
informations. Sont indexés ainsi les dates, nombres,
mots, ... |
Pour optimiser l'indexation en texte intégral on y incorpore une fonction "analyse de texte" qui prendra en compte le vocabulaire, la grammaire et le sens des textes. En effet, l'indexation ne peut se passer des mots car comme le langage qui décrit le réel du monde, l'indexation décrit le réel des textes. L'indexation construit ses "objets" qui doivent reflèter les objets du monde réel. Dès lors, l'indexation n'est pas seulement une opération qui attribue des mots à des textes mais aussi, une opération qui constitue un "monde de documents". [^]
L'utilisation d'un dictionnaire électronique permet de reconnaître les formes canoniques des termes du document. Cette étape, appelée lemmatisation, génère une réduction du nombre des entrées lexicales. A partir de ce dictionnaire, le logiciel identifie également les expressions idiomatiques (moulin à vent) et corrige les fautes d'orthographe (à l'indexation comme lors de la recherche).
Elle permet de lever certaines ambiguïtés du langage et de ce fait favorise une indexation adaptée à la recherche.
Tout en reconnaissant les limites de l'analyse sémantique, celle-ci, en déterminant les concepts sémantiques, facilite la compréhension du document. Elle s'appuie, par exemple, sur les réseaux sémantiques définis dans un dictionnaire et identifie ainsi les idées et concepts présents. Les réseaux sémantiques ainsi définis sont plus larges que ceux du thésaurus. Ils prennent compte des synonymes, des termes relevant du concept d'usage, des termes associés, etc.
|
Représentation pragmatique des structures sémantiques contenues dans l'information textuelle : Extrait de l'application client/serveur pour créer un portail documentaire de la société ARISEM [)]. En situation réelle, tous les expressions sont en liens. Recherche : Danger du téléphone mobile |
|
|
Accident d'avion [9] Accidents de la circulation [20] Accidents liés à l'utilisation [24] Radiations émises [247] Juridique [26] Clearnet [4] Ericsson [63] ETC. |
Danger du téléphone mobile / Accidents Accidents de la circulation : 20 documents |
| Documents triés par pertinence ou par date [82;39]
CIAJ Quarterly 1997 June Vol.10-04 (-) [..]With the
spread of mobile telephone use , new problems have arisen
, such as the increas in number of traffic accidents during
its use and the effects of the electrical signals emitted
by mobile terminals on medical equipment. [..] [80;34] Alarming Statistics
(-) [..]Although there are no actual statistics on the number
of accidents caused by motorists using a cellular phone while
driving , a study conducted for the AAA Foundation for Traffic
Safety in the early part of this decade,[..] |
|
En opérant également une analyse sémantique au
niveau de la requête, il sera possible d'effectuer un rapprochement
entre les idées et les concepts formulés dans les questions
et le corpus documentaire.
| A partir d'une requête : la brume, le logiciel propose des textes ayant un rapport avec brouillard, embrumé, brumeux, ... |
Plusieurs théories peuvent être employées en analyse sématique : la théorie de la logique d'Aristote, la théorie de la sémantique des caractères (Letter Semantics), etc.
| Architecture d'un logiciel de recherche et d'indexation, Spirit, basé sur des fonctions linguistiques et appuié par des dictionnaires de concepts, généraux ou spécialisés. Le logiciel s'adjoint une étape statistique (pondération de la précense des unités lexicales).
|
L'analyse phonétique tente de dissocier les mots en phonèmes. Elle applique aux sons des mots des algorithmes de recherche de façon à identifier des sons proches. Cette approche se révèle intéressante pour la recherche des noms propres pour lesquelles il peut coexister de nombreuses formes orthographiques.
| ConText, moteur de recherche incorporé dans les dernières versions d'Oracle, propose un mode d'indexation tenant compte des équivalences phonétiques et un mode de recherche phonétique (un par langue). |
|
|
|
Analyse de texte |
Translator's workbench (Traducticiel intégré) est un logiciel fournissant un environnement de travail à un traducteur humain. Ce logiciel propose des aides telles que des dictionnaires en ligne, des thésaurus, des mémoires de traduction, etc. [/]
La terminotique s'intéresse aux outils informatiques pour la collecte, la production, le traitement, l'échange et la diffusion des données terminologiques. Ces données terminologiques seront présentées sous la forme d'une base de données, d'un corpus.
Translator's workbench (Traducticiel intégré) est un logiciel fournissant un environnement de travail à un traducteur humain. Ce logiciel propose des aides telles que des dictionnaires en ligne, des thésaurus, des mémoires de traduction, etc. [/]
Une base de données (BD) terminologiques décrit et étudie les termes, les concepts qui se rapportent à un domaine précis.
| BD en archéologie, BD en dentisterie, ... |
Un thésaurus est un "ensemble de mots ou de termes
(dits descripteurs) constituant un vocabulaire
défini (vocabulaire contrôlé de termes), ayant entre eux des
relations d'ordre sémantique (par exemple, une relation hiérarchique
orientée du générique vers le spécifique) ou pragmatique, et qui s'appliquent
à un ou plusieurs domaines de la connaissance." [-]
Les relations entre les termes représentent un corpus sémantique d'un
domaine et tiennent compte de l'évolution du domaine concerné.
Le thésaurus est donc un outil en construction permanente.
Comme le signalait Hudon, le thésaurus se doit d'être un instrument
de travail éminemment flexible et adaptable. [=]
| Définition de ISO 2788-1986 : ... vocabulaire d'un langage d'indexation contrôlé organisé formellement de façon à expliciter les relations a priori entre les notions (par exemple relations générique-spécifique)". |
Du point de vue de sa fonction, un thésaurus est à la fois un instrument
de contrôle et de référence du vocabulaire utilisé pour décrire et organiser
des informations ou des concepts informatifs dans un domaine donné.
De ce fait, il sera employé dans des outils de recherche d'information.
Par exemple, si l'on veut récupérer tout ce qui traite
des crucifères cultivées, il faut savoir que l'information peut être
dispersée sous chacun des termes spécifiques: choux, choux-fleurs, brocolis,
choux-de-Bruxelles, choux chinois, rutabagas, radis.
L'usage de l'informatique favorise la manipulation d'un thésaurus : le terme recherché est entouré des termes reliés qui sont tous des liens hypertextuels qui nous ramènent à leurs réseaux.
Selon la norme ISO 2788-1986, le contenu d'un thésaurus peut être représenté en trois modes principaux : * présentation alphabétique ; * systématique (organisation en domaines ou disciplines et organisation par facettes, ou la combinaison des deux) ; * présentation graphique (schéma fléché ou disposition graphique). Les deux derniers types sont accompagnés d'un index alphabétique.
| Présentation alphabétique : The PILOTS Thesaurus (Dartmouth College) : thésaurus concernant différents domaines (psychiatrie, psychologie, assistance sociale, criminologie et droit) - Outil de recherche dans la base de données PILOTS. Le thésaurus est interrogeable par une liste d'autorité (hiérarchique à 3 niveaux, avec un symbole graphique différent pour désigner les relations de spécificité, d'association ou d'équivalence) ou bien par une liste alphabétique de descripteurs. |
| Présentation systématique : Thésaurus multilingue, Thésaurus d´astronomie |
| Présentation graghique : Visual Thesaurus est conçu à l´aide de la technologie "data-animation" développée par Plumb Design. |
Effectuée de façon traditionnelle, soit à partir des résultats de l'indexation manuelle des textes (méthode a posteriori), soit en consultant les ouvrages terminologiques ou lexicographiques ainsi que les experts du domaine (méthode a priori), la construction de thésaurus est une tâche onéreuse. L'automatisation touche la gestion des résultats de la collecte, du contrôle et de la structuration des termes. De nombreux logiciels existent qui assurent la validation, la réciprocité des relations, la mise à jour du contenu des thésaurus, l'édition, etc. en conformité avec les normes nationales et internationales. Depuis longtemps déjà, des méthodes statistiques ont été testées pour extraire le "vocabulaire" de corpus textuels et en construire une représentation structurée selon des algorithmes de classification automatique. [<]
Actuellement, un logiciel tel que SATO (système d'analyse de textes par ordinateur) apporte une aide à l'élaboration de thésaurus: extraction d'unités lexicales simples et complexes, pondération pour faciliter le choix, regroupements divers, repérage en contexte de formes équivalentes, de synonymes, de termes génériques et spécifiques, de termes associés.
| fréqtot | gramr | division | poids | (lexique) |
| 57 |
terme |
(titre, résumé, intro) (stitre, texte, conclu) |
35 |
métaux_lourds |
59 |
nom |
(titre,résumé,intro) |
31 |
effluents |
| (stitre,texte,conclu) | ||||
| 6 | terme | (résumé,intro) | 30 | échange_ionique |
| (texte) |
[/] A world of understanding - Language technologies - CD-Rom Linglink, European Commission |
||
| [+] Recherche d'informations sur Internet - J. Thil - Technologies internationales N°45; 06/98 - http://www.adit.fr | ||
| [!] Problématique déjà soulevée en 1991 par S. Bertrand-Gastaldy - Comment les logiciels de bases de données bibliographiques et textuelles peuvent-ils répondre aux différents besoins de leurs utilisateurs ? - Les industries de la langue: perspectives des années 1990 - Montréal, Office de la langue française, Société des traducteurs du Québec, p.493/515 - http://www.ling.uquam.ca/sato/publications/ | ||
| [0] Excalibur Technologies International - Excalibur RetrievalWare - http://www.excalib.com/products/rw/rw.html | ||
| [^] Les fondements théoriques de l'indexation, une approche linguistique - Thèse de Muriel Amar - 1997- http://www.enssib.fr/bibliotheque/documents/theses/amar/amar.html | ||
| [)] Offre d'ARISEM - http://online.arisem.com/LCI21/iClass4U/ | ||
[-] Glossaire ATO - Service d´Analyse de Textes par Ordinateur de l´Université du Québec (UQAM) |
||
[=] Le thésaurus : Conception, élaboration, gestion - Hudon Michèle - Montréal, ASTED, 1994. |
||
[<] L'analyse du contenu textuel en vue de la construction de thésaurus et de l'indexation assistées par ordinateur; applications possibles avec SATO (système d'analyse de textes par ordinateur) - S. Bertrand-Gastaldy, G. Pagola |
||
Dernière modification:
Ce site est optimisé pour Netscape 6.0 ou pour Internet
Explorer 4.0 ou ultérieur;
Et pour une résolution de 600/800 (Modifiez-la SI nécessaire).
Tous droits réservés © OTIL, 1999, 2002