Ce carnet traite des principes et des méthodes de la terminologie ainsi que de techno-langagerie. Yvan Cloutier, terminologue

Rechercher sur ce blogue

Cyber-langagerie

lundi 20 octobre 2008

WebCorp Live et Wapiti


WebCorp est en ligne depuis longtemps mais avait des problèmes de temps de réponse. Étant donné le nombre d'opérations qu'il doit effectuer à la suite d'une requête et son taux de fréquentation il n'arrivait pas à satisfaire la demande. La version actuelle que les auteurs décrivent comme : « An improved version of the original WebCorp, designed to search the web for concordances in real time » est effectivement plus rapide et vaut la peine d'être utilisée.

Voir la liste des améliorations apportées ici.

WebCorp est un concordancier que Wikipedia définit comme suit : « Le concordancier ou logiciel de concordance est un outil de référence très utile aux linguistes qui permet de faire la recherche dans un corpus d'un mot accompagné de son contexte, que ce soit pour attester son usage ou l'étudier. » Le concordancier est un outil inégalé pour déterminer le sens des termes à traduire. Dans le cas de WebCorp l'attrait est que l'on se sert de la puissance de Google et des autres moteurs pour les adapter à une interrogation plus langagière.

Voici des citations sélectionnées du menu d'aide de WebCorp :

« WebCorp is a suite of tools which allows access to the World Wide Web as a corpus - a large collection of texts from which facts about the language can be extracted. »

Mon commentaire : il n'y a pas de corpus plus vaste que celui du Web et le fait de pouvoir l'interroger avec un concordancier est vraiment un atout. Cet outil est plus polyvalent que l'interface des moteurs courants puisqu'il présente comme résultat le mot ou l'expression interrogés dans leur contexte (sans les images, etc.). Une sélection peut être faite du nombre de mots en aval et en amont du terme interrogé (20 mots, maximum de mots ou la phrase est entièrement affichée).








« WebCorp works 'on top of' the search engine of your choice, taking the list of URLs returned by that search engine and extracting concordance lines from each of those pages - examples of your chosen word or phrase in context. All of the concordance lines are presented on a single results page, with links to the sites from which they came ... »

Voici un exemple d'interrogation dans WebCorp :

http://en.wikipedia.org/wiki/Heat_detector
Plain Text Word List
  • Wikipedia, the free encyclopedia Jump to: navigation, search Mechanical heat detector, both rate of rise and fixed temperature operation. A heat detector is a device that responds to changes in ambient temperature. Typically, if the ambient temperature rises above a predetermined threshold
  • normal baseline condition. Any sudden temperature increase that matches the predetermined alarm criteria will cause an alarm. This type of heat detector can react to a lower threshold condition than would be possible if the threshold were fixed. A typical alarm may
  • detectors are not meant to replace smoke detectors in the bedrooms or in the hallway outside of the bedrooms. A heat detector will nonetheless notify of a fire in a kitchen or utility area (i.e., laundry room, garage, or attic), where
  • detectors are not interconnected, heat activation identifies the location of the fire, facilitating evacuation from the home. Each type of heat detector has its advantages, and it cannot be said that one type of heat detector should always be used instead of
  • that one type of heat detector should always be used instead of another. If you were to place a rate-of-rise heat detector above a large, closed oven, then every time the door is opened a nuisance alarm could be generated due to
  • fixed threshold detector would probably be best. If a room filled with highly combustible materials is protected with a fixed heat detector then a fast-flaming fire could exceed the alarm threshold due to thermal lag. In that case the rate-of-rise heat detector
  • heat detector then a fast-flaming fire could exceed the alarm threshold due to thermal lag. In that case the rate-of-rise heat detector may be preferred. [edit] See also Fire alarm Flame detector Aspirated smoke detector Carbon monoxide detector Manual
Mon commentaire : les coupures de textes qui précèdent proviennent de pages Web. Le terme demandé est en contexte et selon le format de sortie choisi le texte peut être plus ou moins brut (en partcilulier format .txt). À remarquer les deux formats de sortie : Plain Text et Word List. Ce dernier format génère un liste de la fréquence d'emploi des mots dans le texte.








Dans l'exemple qui précède, toutes les occurrences du terme interrogé « heat detector » sont hyperliées et cliquables. Chaque lien renvoie à tout le texte original dans lequel le terme est mis en surbrillance. Voici un exemple :

« Each type of heat detector has its advantages, and it cannot be said that one type of heat detector should always be used instead of another. If you were to place a rate-of-rise heat detector above a large, closed oven, then every time the door is opened a nuisance alarm could be generated due to the sudden heat transient. In this circumstance the fixed threshold detector would probably be best. If a room filled with highly combustible materials is protected with a fixed heat detector then a fast-flaming fire could exceed the alarm threshold due to thermal lag. In that case the rate-of-rise heat detector may be preferred. »

Voici d'autres textes du menu d'aide de WebCorp :

« WebCorp is designed to retrieve linguistic data from the Web: concordance lines showing the context in which the user's search term occurs. In response to a user query, standard search engines return a list of URLs (page addresses), along with a description of or some text from each page to help the user decide which pages are most useful. To view the pages, the user must click on each of the links individually ... »

« Google is an excellent search engine but it is not designed as a corpus linguistics tool and is not ideal for this purpose. WebCorp contains options (customisable concordance span, output format, etc) specifically designed for linguistic research. »

Mon commentaire : WebCorp utilise des métacaractères (wildcards) très utiles pour l'interrogation terminologique. On trouvera une liste et des explications ici. Google offre de moins en moins de possibilités pour l'interrogation terminologique par l'utilisation de certains tiers entre le moment du lancement de la requête et la présentation du bilan. Pour ne citer qu'un exemple Google ne tient pas compte des majuscules, ce qui n'est pas le cas pour WebCorp.





Dans le but de limiter l'interrogation à une domaine précis, il est possible possible d'utiliser des filtres.

« Site Domain: This option, when used with the Google, AltaVista, Live Search or Ask search engines, allows you to restrict your search to all of the pages on an individual website or all sites with a given domain.

To search all of the pages on an individual site enter the URL without the 'http://' part. For example, enter www.bbc.co.uk to search all pages on the BBC web site.

To restrict the search to sites with a given domain, enter part of a URL. For example, entering .ac.uk will restrict the search to UK academic institutions, while entering .fr will restrict the search to web sites in France.

Newspaper Domains: This option allows you to restrict your search to a pre-defined set of newspaper websites (currently UK broadsheets, UK tabloids, French newspapers, US newspapers). If selected, these choices override any filter entered into the Site Domain box.

Textual Domain: This option allows you to restrict your search to web pages included in a particular category in the Open Directory (the Yahoo-like web index at http://www.dmoz.org). »
















Le menu d'aide de WebCorp est à découvir je vous invite à le lire pour mieux profiter de cet outil très utile.


Et Wapiti alors ! Wapiti est un navigateur qui permet d'afficher trois pages différentes en même temps de manière à pouvoir comparer des données terminologiques. On peut télécharger Wapiti ici. Voici une manière de combiner WebCorp et Wapiti qui peut être intéressante.

Afficher Wapiti en mode deux fenêtres avec WebCorp à gauche et à droite.



Le terminologue qui rédige une fiche multilingue doit attester l'équivalence des termes en se basant sur la correspondance des définitions dans chacune des langues. Il est donc possible avec l'affichage qui précède de rechercher des occurrences du terme de la langue de départ et de les comparer avec des équivalents possibles de la langue d'arrivée à droite. Exemple : on peut déduire par exemple que l'équivalent possible de « bookmark list » est « liste de signets » : demander les deux termes à gauche et à droite afin de repérer des définitions ou contextes que l'on peut recouper.

http://www.webcorp.org.uk/wcadvanced.html?

portail de recherche terminologique

Le Portail de recherche terminologique Eurêka que je créais en 2006 est ici

Il n'a pas été mis à jour depuis au moins deux ans. J'ai intention de le relancer en apportant des corrections à l'interface de présentation et au contenu. Je pense qu'il est très important de collectionner les nombreuses ressources terminologiques disséminées sur le Web et surtout de les rassembler dans une seule page afin de rendre leur consultation plus conviviale.

Concernant l'interface il me semble que la présentation actuelle (ou tout autre qui pourrait y ressembler) est efficace, le principe étant « choisissez votre ressource terminologique dans le cadre gauche et affichez-la dans le cadre droit pour l'y consulter ».

Un affichage monopage est à mon avis plus utile qu'une liste de signets à cause du nombre réduit de manipulations de la souris et du clavier. La portail de recherche terminologique accessible dans le lien ci-haut m'apparaît sans égal du point de vue de facilité de consultation ; si quelqu'un a d'autres idées, prière de faire un commentaire dans la section commentaire de cette page.

Je suis personnellement constamment à la recherche de ressources langagières pour les besoins de la liste Eurêka. D'autres membres diffusent aussi des adresses fort utiles dans la liste. Dans toute cette abondance il importe de colliger, d'ordonner, de mettre à jour, etc. 

Je pense aussi qu'il faut se servir de la force que représente les 700 membres de la liste Eureka et offrir dans cette page multi-interrogations un formulaire qui rende plus facile la soumission de ressources à inclure dans le portail. Une seule personne ne peut arriver à circonscrire aujourd'hui les ressources du Web, même pour un sujet précis, c'est pourquoi la collaboration de tous est capitale.

Sur le contenu je compte me limiter aux ouvrages exclusivement langagiers comme les banques de terminologie, les dictionnaires généraux unilingues ou multilingues, etc. et laisser tomber certains sites actuellement dans le portail.

Mon but ultime est que cette page devienne naturellement par son efficacité «la page préférée » des langagiers.

Je vous invite à faire vos commentaires sur ce sujet qui m'apparaît comme très important.

-----------------------------------------

Abonnez-vous à la liste Eureka  



Suivis

À mon sujet

Ma photo
Carleton-sur-Mer, Gaspésie, Canada
Cyber-terminologue