Lexique : T

retour lexique

retour index lexique

info supplémentaire


Traitement de texte

Le traitement de texte utilise des programmes d'aide à la lecture : fonction recherche d'un mot, ...et à la rédaction de texte : correcteurs, dictionnaires de synonymes,  ...
Il favorise l'usage normatif d'une langue : consultation d'un dictionnaire terminologique incorporé au traitement de texte, usage d'un correcteur grammatical, ...
La qualité d'un traitement de texte dépend des ressources lexicales associées à ses modules : par exemple, un correcteur muni d'un lexique propre - que l'on peut enrichir - et non simplement traduit de l'anglais.

 

 

 

Rédaction de texte

retour lexique


Translator's  workbench

Translator's workbench (Traducticiel intégré) est un logiciel fournissant un environnement de travail à un traducteur humain. Ce logiciel propose des aides telles que des dictionnaires en ligne, des thésaurus, des mémoires de traduction, etc. [/]

 

poste de travail du traducteur

OAT (Outils traduc.)

TAO (traduc. assistée)

retour lexique


Technologies conceptuelles

Les technologies conceptuelles (graphes conceptuels) relève des techniques de l'intelligence artificielle. Elles "s'appuient sur une analyse conceptuelle utilisant une nomenclature de structures syntactio-sémantiques, un ensemble de métaconnaissances et un ensemble de règles d'inférence. Le goulet d'étranglement de cette technologie, très performante, est la mise au point d'un dictionnaire conceptuel par domaine (par exemple : accidentologie automobile et domestique)." [+]

 

 

 

 

retour lexique


Texte intégral

Les fonctions de base d'une telle indexation en texte intégral sont :

- Eliminer les mots vides : en général, à l'aide d'un dictionnaire de "mots vides" (le, de, dans, mon, au, ...).
Cette opération d'indexation, si elle est basée uniquement sur une reconnaissance de chaîne de cararatères, génère un nombre impressionnant d'entrées (les termes accordés, les formes conjugées des verbes, etc.).[!] La recherche produira beaucoup de bruit et de silence. Pour être pertinente, l'indexation devra faire appel à des techniques linguistiques.

- Indiquer la position du mot : pour chaque mot, le fichier index indiquera le numéro du paragraphe, phrase, section, .... Cette indexation permettra de rechercher deux termes non éloignés.

Processus d'indexation du texte : première étape du logiciel de recherche RetrievalWare [0]

L'indexation APRP (Adaptive Pattern Recognition Processing) utilise une technologie fondée sur la reconnaissance des formes par un réseau neuronal, appliquée au codage binéaire des informations. Sont indexés ainsi les dates, nombres, mots, ...
L'indexation textuelle utilise une technique de fichiers inverses. Cette structure reprend les entrées d'index et leur position dans le texte.



Techniques linguistiques

Pour optimiser l'indexation en texte intégral on y incorpore une fonction "analyse de texte" qui prendra en compte le vocabulaire, la grammaire et le sens des textes. En effet, l'indexation ne peut se passer des mots car comme le langage qui décrit le réel du monde, l'indexation décrit le réel des textes. L'indexation construit ses "objets" qui doivent reflèter les objets du monde réel. Dès lors, l'indexation n'est pas seulement une opération qui attribue des mots à des textes mais aussi, une opération qui constitue un "monde de documents". [^]

Analyse morphologique

L'utilisation d'un dictionnaire électronique permet de reconnaître les formes canoniques des termes du document. Cette étape, appelée lemmatisation, génère une réduction du nombre des entrées lexicales. A partir de ce dictionnaire, le logiciel identifie également les expressions idiomatiques (moulin à vent) et corrige les fautes d'orthographe (à l'indexation comme lors de la recherche).

Analyse syntaxique

Elle permet de lever certaines ambiguïtés du langage et de ce fait favorise une indexation adaptée à la recherche.

Analyse sémantique

Tout en reconnaissant les limites de l'analyse sémantique, celle-ci, en déterminant les concepts sémantiques, facilite la compréhension du document. Elle s'appuie, par exemple, sur les réseaux sémantiques définis dans un dictionnaire et identifie ainsi les idées et concepts présents. Les réseaux sémantiques ainsi définis sont plus larges que ceux du thésaurus. Ils prennent compte des synonymes, des termes relevant du concept d'usage, des termes associés, etc.

Représentation pragmatique des structures sémantiques contenues dans l'information textuelle : Extrait de l'application client/serveur pour créer un portail documentaire de la société ARISEM [)]. En situation réelle, tous les expressions sont en liens.

Recherche : Danger du téléphone mobile

  • Accidents
    Accident d'avion [9]
    Accidents de la circulation [20]
    Accidents liés à l'utilisation [24]

  • Etudes scientifiques Impact bio-cellulaire [80]
    Radiations émises [247]
    Juridique [26]

  • Matériels et constructeurs Alcatel [8] Audiovox [6]
    Clearnet [4]
    Ericsson [63]
  • ETC.

    Danger du téléphone mobile / Accidents Accidents de la circulation : 20 documents

    Documents triés par pertinence ou par date

    [82;39] CIAJ Quarterly 1997 June Vol.10-04 (-) [..]With the spread of mobile telephone use , new problems have arisen , such as the increas in number of traffic accidents during its use and the effects of the electrical signals emitted by mobile terminals on medical equipment. [..]
    Voir aussi: Accidents liés à l'utilisation, Radiations émises

    [80;34] Alarming Statistics (-) [..]Although there are no actual statistics on the number of accidents caused by motorists using a cellular phone while driving , a study conducted for the AAA Foundation for Traffic Safety in the early part of this decade,[..]
    Voir aussi: Accidents liés à l'utilisation

     


    En opérant également une analyse sémantique au niveau de la requête, il sera possible d'effectuer un rapprochement entre les idées et les concepts formulés dans les questions et le corpus documentaire.

    A partir d'une requête : la brume, le logiciel propose des textes ayant un rapport avec brouillard, embrumé, brumeux, ...

    Plusieurs théories peuvent être employées en analyse sématique : la théorie de la logique d'Aristote, la théorie de la sémantique des caractères (Letter Semantics), etc.

     

    Architecture d'un logiciel de recherche et d'indexation, Spirit, basé sur des fonctions linguistiques et appuié par des dictionnaires de concepts, généraux ou spécialisés. Le logiciel s'adjoint une étape statistique (pondération de la précense des unités lexicales).

     

    Analyse phonétique

    L'analyse phonétique tente de dissocier les mots en phonèmes. Elle applique aux sons des mots des algorithmes de recherche de façon à identifier des sons proches. Cette approche se révèle intéressante pour la recherche des noms propres pour lesquelles il peut coexister de nombreuses formes orthographiques.

    ConText, moteur de recherche incorporé dans les dernières versions d'Oracle, propose un mode d'indexation tenant compte des équivalences phonétiques et un mode de recherche phonétique (un par langue).

     

     

     

    Analyse de texte

    retour lexique


    Translator's  workbench

    Translator's workbench (Traducticiel intégré) est un logiciel fournissant un environnement de travail à un traducteur humain. Ce logiciel propose des aides telles que des dictionnaires en ligne, des thésaurus, des mémoires de traduction, etc. [/]

     

    poste de travail du traducteur

    OAT (Outils traduc.)

    TAO (traduc. assistée)

    retour lexique


    Terminotique

    Définition

    La terminotique s'intéresse aux outils informatiques pour la collecte, la production, le traitement, l'échange et la diffusion des données terminologiques. Ces données terminologiques seront présentées sous la forme d'une base de données, d'un corpus.

     

    Translator's workbench (Traducticiel intégré) est un logiciel fournissant un environnement de travail à un traducteur humain. Ce logiciel propose des aides telles que des dictionnaires en ligne, des thésaurus, des mémoires de traduction, etc. [/]

    Une base de données (BD) terminologiques décrit et étudie les termes, les concepts qui se rapportent à un domaine précis.

    BD en archéologie, BD en dentisterie, ...
    • Ressource unilingue : signification, emploi, recommandations de l’usage des termes
    • Ressource multilingue : traduction de termes en langue source dans les langues cibles.
     

     

     

     

    retour lexique


    Thésaurus

    Un thésaurus est un "ensemble de mots ou de termes (dits descripteurs) constituant un vocabulaire défini (vocabulaire contrôlé de termes), ayant entre eux des relations d'ordre sémantique (par exemple, une relation hiérarchique orientée du générique vers le spécifique) ou pragmatique, et qui s'appliquent à un ou plusieurs domaines de la connaissance." [-]
    Les relations entre les termes représentent un corpus sémantique d'un domaine et tiennent compte de l'évolution du domaine concerné.  Le thésaurus est donc un outil en construction permanente. Comme le signalait Hudon, le thésaurus se doit d'être un instrument de travail éminemment flexible et adaptable. [=]

    Définition de ISO 2788-1986 :
    ... vocabulaire d'un langage d'indexation contrôlé organisé formellement de façon à expliciter les relations a priori entre les notions (par exemple relations générique-spécifique)".


    Du point de vue de sa fonction, un thésaurus est à la fois un instrument de contrôle et de référence du vocabulaire utilisé pour décrire et organiser des informations ou des concepts informatifs dans un domaine donné. De ce fait, il sera employé dans des outils de recherche d'information.

    Par exemple, si l'on veut récupérer tout ce qui traite des crucifères cultivées, il faut savoir que l'information peut être dispersée sous chacun des termes spécifiques: choux, choux-fleurs, brocolis, choux-de-Bruxelles, choux chinois, rutabagas, radis.

    Thésaurus électronique

    L'usage de l'informatique favorise la manipulation d'un thésaurus : le terme recherché est entouré des termes reliés qui sont tous des liens hypertextuels qui nous ramènent à leurs réseaux.

    Selon la norme ISO 2788-1986, le contenu d'un thésaurus peut être représenté en trois modes principaux : * présentation alphabétique ; * systématique (organisation en domaines ou disciplines et organisation par facettes, ou la combinaison des deux) ; * présentation graphique (schéma fléché ou disposition graphique). Les deux derniers types sont accompagnés d'un index alphabétique. 

    Présentation alphabétique : The PILOTS Thesaurus (Dartmouth College) : thésaurus concernant différents domaines (psychiatrie, psychologie, assistance sociale, criminologie et droit) - Outil de recherche dans la base de données PILOTS. Le thésaurus est interrogeable par une liste d'autorité (hiérarchique à 3 niveaux, avec un symbole graphique différent pour désigner les relations de spécificité, d'association ou d'équivalence) ou bien par une liste alphabétique de descripteurs.
    Présentation systématique : Thésaurus multilingue, Thésaurus d´astronomie
    Présentation graghique : Visual Thesaurus est conçu à l´aide de la technologie "data-animation" développée par Plumb Design. 

    Effectuée de façon traditionnelle, soit à partir des résultats de l'indexation manuelle des textes (méthode a posteriori), soit en consultant les ouvrages terminologiques ou lexicographiques ainsi que les experts du domaine (méthode a priori), la construction de thésaurus est une tâche onéreuse. L'automatisation touche la gestion des résultats de la collecte, du contrôle et de la structuration des termes. De nombreux logiciels existent qui assurent la validation, la réciprocité des relations, la mise à jour du contenu des thésaurus, l'édition, etc. en conformité avec les normes nationales et internationales. Depuis longtemps déjà, des méthodes statistiques ont été testées pour extraire le "vocabulaire" de corpus textuels et en construire une représentation structurée selon des algorithmes de classification automatique. [<]

    Actuellement, un logiciel tel que SATO (système d'analyse de textes par ordinateur) apporte une aide à l'élaboration de thésaurus: extraction d'unités lexicales simples et complexes, pondération pour faciliter le choix, regroupements divers, repérage en contexte de formes équivalentes, de synonymes, de termes génériques et spécifiques, de termes associés.

    fréqtot gramr division poids (lexique)

    57

    terme

    (titre, résumé, intro)

    (stitre, texte, conclu)


    35

    métaux_lourds

    59

    nom

    (titre,résumé,intro)

    31

    effluents
    (stitre,texte,conclu)
    6 terme (résumé,intro) 30 échange_ionique
    (texte)

     

     

     

     

    outils lexicographiques

    retour lexique


    Accèdez à des renseignements supplémentaires disponibles dans les Ressources de l'Ìnventaire

    [/] A world of understanding - Language technologies - CD-Rom Linglink, European Commission

      retour
    [+] Recherche d'informations sur Internet - J. Thil - Technologies internationales N°45; 06/98 - http://www.adit.fr   retour
    [!] Problématique déjà soulevée en 1991 par S. Bertrand-Gastaldy - Comment les logiciels de bases de données bibliographiques et textuelles peuvent-ils répondre aux différents besoins de leurs utilisateurs ? - Les industries de la langue: perspectives des années 1990 - Montréal, Office de la langue française, Société des traducteurs du Québec, p.493/515 - http://www.ling.uquam.ca/sato/publications/   retour
    [0] Excalibur Technologies International - Excalibur RetrievalWare - http://www.excalib.com/products/rw/rw.html   retour
    [^] Les fondements théoriques de l'indexation, une approche linguistique - Thèse de Muriel Amar - 1997- http://www.enssib.fr/bibliotheque/documents/theses/amar/amar.html   retour
    [)] Offre d'ARISEM - http://online.arisem.com/LCI21/iClass4U/   retour

    [-] Glossaire ATO - Service d´Analyse de Textes par Ordinateur de l´Université du Québec (UQAM)

    retour

    [=] Le thésaurus : Conception, élaboration, gestion - Hudon Michèle - Montréal, ASTED, 1994.

      retour

    [<] L'analyse du contenu textuel en vue de la construction de thésaurus et de l'indexation assistées par ordinateur; applications possibles avec SATO (système d'analyse de textes par ordinateur) - S. Bertrand-Gastaldy, G. Pagola

      retour
         

    Dernière modification:

    Ce site est optimisé pour Netscape 6.0 ou pour Internet Explorer 4.0 ou ultérieur;
    Et pour une résolution de 600/800 (Modifiez-la SI nécessaire).

    Tous droits réservés © OTIL, 1999, 2002