Ce carnet traite des principes et des méthodes de la terminologie ainsi que de techno-langagerie. Yvan Cloutier, terminologue

Rechercher sur ce blogue

Cyber-langagerie

jeudi 30 octobre 2008

The MultiSemCor parallel corpus

Mon engouement pour les corpus alignés vous est certainement apparu évident depuis que je publie des messages. J'avais établi dans liste Eurêka un ordre de priorité pour la consultation des ressources lorsqu'un problème terminologique se présente. En voici les grandes lignes :
  1. Banques de terminologie (pour trouver une traduction)
  2. Corpus multilingues alignés (pour trouver une traduction)
  3. Dictionnaires de traduction (pour trouver une traduction)
  4. Dictionnaires généraux définitoires (pour chercher à cerner les concepts)
  5. Les textes spécialisés en ligne ou écrits (pour rechercher un contexte explicatif)
Les textes traduits par des traducteurs professionnels ont une valeur certaine lorsque les problèmes terminologique qu'ils contiennent ont été résolus selon règles de la recherche terminologique, c'est pourquoi je place le corpus alignés au deuxième rang. La mémoire de traduction du monde est devenue gigantesque depuis que le Web existe et on ne peut la négliger. 

MultiSemCor est une corpus aligné de textes anglais<->italien et anglais<->roumain. Je n'ai trouvé aucune mention sur le site qui indique que les textes passent par un moteur commercial avant d'être traités comme c'est le cas par exemple pour les concordanciers WebCorp et WebAsCorpus.

Je ne connais pas de sites qui alignent « live » les bitextes mais ce serait très intéressant que l'on développe ce genre d'interface. Par  « live (en temps réel) » j'entends les applications qui passent par des moteurs commerciaux comme Google ou Alta Vista avant d'établir une liste d'occurrences finale (WebCorp, WenAsCorpus). 

Imaginons par exemple les pages anglaises et françaises des sites du Gouvernement canadien qui, après une interrogation, s'aligneraient à gauche et à droite de l'écran. Il serait alors facile de repérer les traductions « phrases à phrases » en ne perdant rien des subtilités d'expression dans les deux langues.

MultiSemCor est un bel exemple de corpus aligné offrant une intéressante présentation des données réparties et échangées entre les quatre cadres d'un seule page.


Adresse utiles

WebAsCorpus

Aucun commentaire:

Suivis

À mon sujet

Ma photo
Carleton-sur-Mer, Gaspésie, Canada
Cyber-terminologue