Ce carnet traite des principes et des méthodes de la terminologie ainsi que de techno-langagerie. Yvan Cloutier, terminologue

Rechercher sur ce blogue

Cyber-langagerie

lundi 20 octobre 2008

WebCorp Live et Wapiti


WebCorp est en ligne depuis longtemps mais avait des problèmes de temps de réponse. Étant donné le nombre d'opérations qu'il doit effectuer à la suite d'une requête et son taux de fréquentation il n'arrivait pas à satisfaire la demande. La version actuelle que les auteurs décrivent comme : « An improved version of the original WebCorp, designed to search the web for concordances in real time » est effectivement plus rapide et vaut la peine d'être utilisée.

Voir la liste des améliorations apportées ici.

WebCorp est un concordancier que Wikipedia définit comme suit : « Le concordancier ou logiciel de concordance est un outil de référence très utile aux linguistes qui permet de faire la recherche dans un corpus d'un mot accompagné de son contexte, que ce soit pour attester son usage ou l'étudier. » Le concordancier est un outil inégalé pour déterminer le sens des termes à traduire. Dans le cas de WebCorp l'attrait est que l'on se sert de la puissance de Google et des autres moteurs pour les adapter à une interrogation plus langagière.

Voici des citations sélectionnées du menu d'aide de WebCorp :

« WebCorp is a suite of tools which allows access to the World Wide Web as a corpus - a large collection of texts from which facts about the language can be extracted. »

Mon commentaire : il n'y a pas de corpus plus vaste que celui du Web et le fait de pouvoir l'interroger avec un concordancier est vraiment un atout. Cet outil est plus polyvalent que l'interface des moteurs courants puisqu'il présente comme résultat le mot ou l'expression interrogés dans leur contexte (sans les images, etc.). Une sélection peut être faite du nombre de mots en aval et en amont du terme interrogé (20 mots, maximum de mots ou la phrase est entièrement affichée).








« WebCorp works 'on top of' the search engine of your choice, taking the list of URLs returned by that search engine and extracting concordance lines from each of those pages - examples of your chosen word or phrase in context. All of the concordance lines are presented on a single results page, with links to the sites from which they came ... »

Voici un exemple d'interrogation dans WebCorp :

http://en.wikipedia.org/wiki/Heat_detector
Plain Text Word List
  • Wikipedia, the free encyclopedia Jump to: navigation, search Mechanical heat detector, both rate of rise and fixed temperature operation. A heat detector is a device that responds to changes in ambient temperature. Typically, if the ambient temperature rises above a predetermined threshold
  • normal baseline condition. Any sudden temperature increase that matches the predetermined alarm criteria will cause an alarm. This type of heat detector can react to a lower threshold condition than would be possible if the threshold were fixed. A typical alarm may
  • detectors are not meant to replace smoke detectors in the bedrooms or in the hallway outside of the bedrooms. A heat detector will nonetheless notify of a fire in a kitchen or utility area (i.e., laundry room, garage, or attic), where
  • detectors are not interconnected, heat activation identifies the location of the fire, facilitating evacuation from the home. Each type of heat detector has its advantages, and it cannot be said that one type of heat detector should always be used instead of
  • that one type of heat detector should always be used instead of another. If you were to place a rate-of-rise heat detector above a large, closed oven, then every time the door is opened a nuisance alarm could be generated due to
  • fixed threshold detector would probably be best. If a room filled with highly combustible materials is protected with a fixed heat detector then a fast-flaming fire could exceed the alarm threshold due to thermal lag. In that case the rate-of-rise heat detector
  • heat detector then a fast-flaming fire could exceed the alarm threshold due to thermal lag. In that case the rate-of-rise heat detector may be preferred. [edit] See also Fire alarm Flame detector Aspirated smoke detector Carbon monoxide detector Manual
Mon commentaire : les coupures de textes qui précèdent proviennent de pages Web. Le terme demandé est en contexte et selon le format de sortie choisi le texte peut être plus ou moins brut (en partcilulier format .txt). À remarquer les deux formats de sortie : Plain Text et Word List. Ce dernier format génère un liste de la fréquence d'emploi des mots dans le texte.








Dans l'exemple qui précède, toutes les occurrences du terme interrogé « heat detector » sont hyperliées et cliquables. Chaque lien renvoie à tout le texte original dans lequel le terme est mis en surbrillance. Voici un exemple :

« Each type of heat detector has its advantages, and it cannot be said that one type of heat detector should always be used instead of another. If you were to place a rate-of-rise heat detector above a large, closed oven, then every time the door is opened a nuisance alarm could be generated due to the sudden heat transient. In this circumstance the fixed threshold detector would probably be best. If a room filled with highly combustible materials is protected with a fixed heat detector then a fast-flaming fire could exceed the alarm threshold due to thermal lag. In that case the rate-of-rise heat detector may be preferred. »

Voici d'autres textes du menu d'aide de WebCorp :

« WebCorp is designed to retrieve linguistic data from the Web: concordance lines showing the context in which the user's search term occurs. In response to a user query, standard search engines return a list of URLs (page addresses), along with a description of or some text from each page to help the user decide which pages are most useful. To view the pages, the user must click on each of the links individually ... »

« Google is an excellent search engine but it is not designed as a corpus linguistics tool and is not ideal for this purpose. WebCorp contains options (customisable concordance span, output format, etc) specifically designed for linguistic research. »

Mon commentaire : WebCorp utilise des métacaractères (wildcards) très utiles pour l'interrogation terminologique. On trouvera une liste et des explications ici. Google offre de moins en moins de possibilités pour l'interrogation terminologique par l'utilisation de certains tiers entre le moment du lancement de la requête et la présentation du bilan. Pour ne citer qu'un exemple Google ne tient pas compte des majuscules, ce qui n'est pas le cas pour WebCorp.





Dans le but de limiter l'interrogation à une domaine précis, il est possible possible d'utiliser des filtres.

« Site Domain: This option, when used with the Google, AltaVista, Live Search or Ask search engines, allows you to restrict your search to all of the pages on an individual website or all sites with a given domain.

To search all of the pages on an individual site enter the URL without the 'http://' part. For example, enter www.bbc.co.uk to search all pages on the BBC web site.

To restrict the search to sites with a given domain, enter part of a URL. For example, entering .ac.uk will restrict the search to UK academic institutions, while entering .fr will restrict the search to web sites in France.

Newspaper Domains: This option allows you to restrict your search to a pre-defined set of newspaper websites (currently UK broadsheets, UK tabloids, French newspapers, US newspapers). If selected, these choices override any filter entered into the Site Domain box.

Textual Domain: This option allows you to restrict your search to web pages included in a particular category in the Open Directory (the Yahoo-like web index at http://www.dmoz.org). »
















Le menu d'aide de WebCorp est à découvir je vous invite à le lire pour mieux profiter de cet outil très utile.


Et Wapiti alors ! Wapiti est un navigateur qui permet d'afficher trois pages différentes en même temps de manière à pouvoir comparer des données terminologiques. On peut télécharger Wapiti ici. Voici une manière de combiner WebCorp et Wapiti qui peut être intéressante.

Afficher Wapiti en mode deux fenêtres avec WebCorp à gauche et à droite.



Le terminologue qui rédige une fiche multilingue doit attester l'équivalence des termes en se basant sur la correspondance des définitions dans chacune des langues. Il est donc possible avec l'affichage qui précède de rechercher des occurrences du terme de la langue de départ et de les comparer avec des équivalents possibles de la langue d'arrivée à droite. Exemple : on peut déduire par exemple que l'équivalent possible de « bookmark list » est « liste de signets » : demander les deux termes à gauche et à droite afin de repérer des définitions ou contextes que l'on peut recouper.

http://www.webcorp.org.uk/wcadvanced.html?

Aucun commentaire:

Suivis

À mon sujet

Ma photo
Carleton-sur-Mer, Gaspésie, Canada
Cyber-terminologue