Mon engouement pour les corpus alignés vous est certainement apparu évident depuis que je publie des messages. J'avais établi dans liste Eurêka un ordre de priorité pour la consultation des ressources lorsqu'un problème terminologique se présente. En voici les grandes lignes :
- Banques de terminologie (pour trouver une traduction)
- Corpus multilingues alignés (pour trouver une traduction)
- Dictionnaires de traduction (pour trouver une traduction)
- Dictionnaires généraux définitoires (pour chercher à cerner les concepts)
- Les textes spécialisés en ligne ou écrits (pour rechercher un contexte explicatif)
Les textes traduits par des traducteurs professionnels ont une valeur certaine lorsque les problèmes terminologique qu'ils contiennent ont été résolus selon règles de la recherche terminologique, c'est pourquoi je place le corpus alignés au deuxième rang. La mémoire de traduction du monde est devenue gigantesque depuis que le Web existe et on ne peut la négliger.
MultiSemCor est une corpus aligné de textes anglais<->italien et anglais<->roumain. Je n'ai trouvé aucune mention sur le site qui indique que les textes passent par un moteur commercial avant d'être traités comme c'est le cas par exemple pour les concordanciers WebCorp et WebAsCorpus.
Je ne connais pas de sites qui alignent « live » les bitextes mais ce serait très intéressant que l'on développe ce genre d'interface. Par « live (en temps réel) » j'entends les applications qui passent par des moteurs commerciaux comme Google ou Alta Vista avant d'établir une liste d'occurrences finale (WebCorp, WenAsCorpus).
Imaginons par exemple les pages anglaises et françaises des sites du Gouvernement canadien qui, après une interrogation, s'aligneraient à gauche et à droite de l'écran. Il serait alors facile de repérer les traductions « phrases à phrases » en ne perdant rien des subtilités d'expression dans les deux langues.
MultiSemCor est un bel exemple de corpus aligné offrant une intéressante présentation des données réparties et échangées entre les quatre cadres d'un seule page.
Adresse utiles
MultiSemCor : http://multisemcor.itc.it/frameset2.php
Liste Eurêka : http://fr.groups.yahoo.com/group/eureka/
Moteur de recherche canadien : http://recherche-search.gc.ca/s_r?S_08D4T.1ct57n=form&S_08D4T.s3rv5c3=basic&s5t34d=canada&t3mpl1t34d=1&l7c1l3=fra
WebAsCorpus