Réference et notes
- Voir mon billet précédent sur le concordancier WebCorp qui utilise les moteurs de recherche comme Google, Alta Vista, etc. pour interroger le Web en temps réel.
- Sur le même site à cette adresse on peut s'enregistrer pour l'interrogation du WebCorp Linguist's Search Engine (LSE). Ce corpus n'interroge pas le Web en temps réel mais plutôt une base de données statique de textes qu'on alimente régulièrement à partir du Web.
- WebCorp LSE is being developed and operated by the Research and Development Unit for English Studies (RDUES) in theSchool of English at Birmingham City University.
Citation
« WebCorp Linguist's Search Engine is a specially tailored search engine for the study of language on the web. Due to the inadequacies of commercial search engines for studying language on the web it was obvious that a specialised search engine, understanding these needs, is required.
Armed with years of knowledge in the field of corpus linguistics we developed the WebCorp prototype, which uses commercial search engines to extract results from the web and organises the information for linguistic study. Due to the limitations of the prototype we know that a fully-tailored linguistic search engine, built from top to bottom with these needs in mind, is necessary. We are currently developing the WebCorp Linguist's Search Engine to fulfil this need.
WebCorp LSE is a search engine formed from a unique architecture to facilitate linguistic study of the web. Web content is downloaded, processed and stored to eventually form a 10 billion word corpus. Source. »
Commentaire
Bien que les objectifs des auteurs du LSE soient plutôt du côté de la linguistique informatique, on retrouve ici un intérêt certain pour une forme d'utilisation des outils du Web axée sur les besoins des langagiers.