Ce carnet traite des principes et des méthodes de la terminologie ainsi que de techno-langagerie. Yvan Cloutier, terminologue

Rechercher sur ce blogue

Cyber-langagerie

mercredi 29 octobre 2008

WebAsCorpus.org

Voir aussi mon billet sur WebCorp.
Rechercher dans le Web avec WebAsCorpus me semble plus convivial que de le faire avec Google. Cependant, contrairement à WebCorp qui passe par Google, WebAsCorpus utilise le moteur Live Search de Microsoft.
Voici ce que je retiens des possibilités de ce concordancier qui est susceptible de faciliter le travail des langagiers.
  • son temps de réponse est acceptable, presqu'aussi rapide que Google.

  • il donne accès à des contenus textuels déformatés (sans images, sans scripts, etc.) donc une fois le texte chargé la navigation intra-textuelle se fait beaucoup plus rapidement.

  • options de l'interface :
    @le nombre de caractères avant et après le terme interrogé peut aller jusqu'à 1000 ; sinon on peut accéder au texte complet.
    @le nombre de pages Web que le moteur explore peut être déterminé d'avance soit de 10 à 500.
    @le nombre d'occurrences repérées pour chaque page Web peut être réglé de 10 a 100.
    @le filtre des pays permet de limiter l'interrogation à un ou plusieurs pays.



    Les préférences qui précèdent peuvent être sauvegardées par défaut sur un ordinateur donné pour chaque séance d'interrogation.

  • l'utilisateur peut choisir la langue d'interrogation.

  • le formulaire de recherche avancée comporte des cases d'inclusion et d'exclusion de descripteurs par rapport au terme faisant l'objet de l'interrogation. Il peut être efficace d'inscrire dans ces cases des termes décrivant des domaines généraux afin de limiter le nombre de pages dans le cas de termes polysémiques. La structuration de requêtes avec filtrage par domaines est donc possible comme dans une banque terminologique. Exemple : si on veut trouver les pages portant sur les indiens Cherokee américains et non celles concernant la jeep de marque Cherokee, inscrire le mot « jeep » dans la case Exclude du formulaire de recherche avancée. Beaucoup de formats d'interrogation sont possibles à partir des cases Include et Exclude.

  • le bilan de recherche surligne te terme recherché, exemple : « La bio-informatique est un champ de recherche multi-disciplinaire où travaillent de concert biologistes, informaticiens, mathématiciens et physiciens, dans le but de résoudre un problème scientifique posé par la biologie. Le terme bio-informatique peut également décrire (par abus de langage) toutes les applications informatiques résultant de ces recherches[1]. Cela va de l'analyse du génome à la modélisation de l'évolution d'une population animale dans un environnement donné, en passa... »

  • selon les options sélectionnées le bilan de recherche affiche au début ce qui suit : « Live Search reports 107,000 total hits for "bio-informatique" in French... displaying concordances from up to 50 matching webpages and 30 matches per page, starting with page 1. »

  • affichage des options suivantes au haut de l'écran : « continue this search | zipfile of HTML files | text files | both | search for other concordances 58 docs seen ... when this page is complete, links to download the HTML and / or text files in zipped format will appear above (instant minicorpus!) » donnant la possibilité de constituer un corpus sur un sujet donné.

Aucun commentaire:

Suivis

À mon sujet

Ma photo
Carleton-sur-Mer, Gaspésie, Canada
Cyber-terminologue