Cyber-langagerie

mardi 16 décembre 2008

DeepDyve - un autre moteur de recherche fédérée

J'ai souvent lu dernièrement des textes portant sur l'incapacité de Google à donner une information objective. Certains ont même affirmé que YouTube a tendance a être plus consulté que Google. Il semble aussi parallèlement que les moteurs fouillant le Web caché se développent de plus en plus. Voilà sans doute une solution pour l'accès à une information objective qui est un atout à l'exercice des professions langagières.

Le moteurs du Web caché sont de plus en plus sophistiqués. J'en ai décrit certains dans des billets précédents (voir les liens à la fin) et je m'y intéresse parce que soupçonne que ces moteurs seront les seuls moteurs valables sous peu. Le problème est qu'ils sont pour la plupart actuellement en version bêta et qu'on veut sur ces sites vendre un technologie. À consulter ces moteurs on constate souvent que pour avoir accès à l'information recherchée il faut payer. La recherche d'information sera-t-elle bientôt payante ? Il ne faut oublier que le Web caché constitue la partie cachée de l'iceberg et donc plus volumineux que le Web des moteurs génériques.

Voici les caractéristiques du Web caché d'après Wikipédia :

« Dynamic content – dynamic pages which are returned in response to a submitted query or accessed only through a form, especially if open-domain input elements (such as text fields) are used; such fields are hard to navigate without domain knowledge.

Unlinked content – pages which are not linked to by other pages, which may prevent Web crawling programs from accessing the content. This content is referred to as pages without backlinks (or inlinks).

Private Web – sites that require registration and login (password-protected resources).

Contextual Web – pages with content varying for different access contexts (e.g., ranges of client IP addresses or previous navigation sequence).

Limited access content – sites that limit access to their pages in a technical way (e.g., using the Robots Exclusion Standard, CAPTCHAs or pragma:no-cache/cache-control:no-cacheHTTP headers[citation needed]), prohibiting search engines from browsing them and creating cached copies.

Scripted content – pages that are only accessible through links produced by JavaScript as well as content dynamically downloaded from Web servers via Flash or AJAX solutions.

Non-HTML/text content – textual content encoded in multimedia (image or video) files or specific file formats not handled by search engines. »

L'info disséminée sur le Web cachée est privilégiée et elle a fait l'objet d'une classification humaine basée sur des principes reconnus de collection des données.
Voici ce que dit encore Wikipédia :

« To discover content on the Web, search engines use web crawlers that follow hyperlinks. This technique is ideal for discovering resources on the surface Web but is often ineffective at finding deep Web resources. For example, these crawlers do not attempt to find dynamic pages that are the result of database queries due to the infinite number of queries that are possible. It has been noted that this can be (partially) overcome by providing links to query results, but this could unintentionally inflate the popularity (e.g., PageRank) for a member of the deep Web.

One way to access the deep Web is via federated search based search engines. Search tools such as Science.gov are being designed to retrieve information from the deep Web. These tools identify and interact with searchable databases, aiming to provide access to deep Web content.

Another way to explore the deep Web is by using human crawlers instead of algorithmic crawlers. In this paradigm referred to as Web harvesting, humans find interesting links of the deep Web that algorithmic crawlers can't find. »

Parmi le moteurs je vous présente après cette longue introduction le moteur DeepDyve qui innove encore avec des options d'interface qui ajoutent à ce que j'ai déjà présenté dans d'autres billets.

http://mysearch.deepdyve.com/start.php

Yvan Cloutier, terminologue

vendredi 12 décembre 2008

La respiration et la traduction

Traduire c'est aussi stressant on le sait tous. La traduction est une profession de précision, de recherche, de concentration et de gestion serrée des échéanciers. Elle implique aussi des relations humaines et donc de la diplomatie. Le traducteur est souvent confronté à des choix professionnels importants tant du point de vue de sa pratique que du point de vue financier. Toutes ces obligations sont un très grande source d'accumulation de frustrations et peuvent générer des pressions énormes sur un être humain.

La respiration contrôlée que j'ai souvent pratiquée a été très efficace pour moi dans plusieurs étapes de ma vie et j'y crois. Elle aide significativement à diminuer les stress et a d'autres effet (comme une influence sur le poids) que je ne soupçonnais pas comme vous le verrez en consultant les références de ce billet.

« Le docteur O’Hare estime que d’agir sur sa respiration permet d’influencer positivement le rythme cardiaque. Des exercices quotidiens de quatre ou cinq minutes suffisent pour chasser le stress. »

Pour convivialiser l'exercice d'un respiration contrôlée le docteur O'Hare met en ligne sur son site un ingénieux guide visuel de respiration qu'il appelle Le guide respiratoire. Voir cette page :

http://www.coherencecardiaque.ca/cohcar/guide/guide.html

Voir aussi l'entrevue accordée à Christaine Charette à Radio-Canada ici :

http://bit.ly/eMcu

Yvan Cloutier

mardi 9 décembre 2008

SUN Glossary Tool

Définitivement toutes les grosses boîtes informatiques (Microsoft et Google aussi) reconnaissent le besoin des banques de terminologie et de la traduction. Je viens de tomber sur les site de Sun Microsystems et j'y ai trouvé une base terminologique et des ressources pour les traducteurs.

Le Sun Glossary Tool est ici

https://g11nportal.sun.com/sungloss/sungloss_search?action=initsimple

NOTE : ce Glossaire multilingue a été ajouté dans le CERTE à cette adresse

http://pages.globetrotter.net/mverge/eureka/demoFrameset.html

et les ressources ici

http://developers.sun.com/global/technology/translation/translation-tools.html

Yvan

lundi 8 décembre 2008

De l'importance des langues et des langagiers

Je ne peux m'empêcher de citer en partie ce texte de Térésa Cabré qui exprime d'une manière admirable le rôle prépondérant des langues sur le Web . Il n'est pas donné à tous de s'exprimer d'une manière concise et claire.

« Dans la société contemporaine, les langues ont acquis un rôle stratégique très important. Le multilinguisme s'impose aujourd'hui comme une réalité qui ne doit pas être évitée, mais au contraire encouragée. Il se traduit par une attitude de respect envers l'autre, envers ce qui est différent. Il est également perçu comme un fait écologique de préservation de la diversité réelle, d'une diversité qu'il est fondamental de conserver comme un bien naturel et patrimonial de l'humanité. Cependant, la diversité linguistique peut aussi représenter un obstacle dans des circonstances dans lesquelles on se veut efficace et univoque. Dans de telles situations, la préservation de la diversité, si elle n'est pas correctement définie, n'est pas viable. Nous évoluons donc entre deux tendances: l'une conduisant vers l'unité linguistique, l'autre vers la diversité. »

La suite ...

Yvan Cloutier

Repérage terminologique automatisé ?

Je reçois le courriel qui suit.

Il traite de la possibilité de repérer des unités terminologiques sur le Web à l'aide d'un logiciel. Si je comprends bien il s'agit là de ce que l'on pourrait appeler du « dépouillement terminologique automatisé ».

Devant l'abondance et le fouillis, cela me semble une solution des plus efficaces. Créer une communauté d'agents intelligents qui exercent une veille terminologique dans des domaines précis. Ceux-ci pourraient même être entraînés à rechercher dans les textes des contextes définitoires pertinents, c'est-à-dire être capables de reconnaître les contextes et de les comparer. La technologie évolue à la vitesse de l'éclair et la langue qui la décrit également de sorte que ces agents pourraient être forts appréciés dans un avenir rapproché.

Bien entendu le tout sous supervision humaine.

Début du courriel ===========================

Prochain séminaire interne de linguistique :

Par : Stéphanie WEISER

Titre :
Repérage automatique d'informations temporelles touristiques dans des
pages Web

Résumé :
Les expressions temporelles liées au domaine du tourisme ont des
caractéristiques précises : elles ont une visée informative et sont
assez spécifiques. Elles le sont d'autant plus lorsqu'elles figurent
dans des pages Web. Notre travail consiste à extraire ces informations
des pages Web et à les annoter afin d'alimenter la base de
connaissance d'un portail touristique sur Internet. Après avoir
caractérisé les informations que nous voulons détecter, nous verrons
les difficultés qui peuvent se poser, au moment de l'extraction ou de
l'annotation.

Sur un plan technique nous présenterons notre méthode d'extraction, et
les transducteurs (termes apperentés) qui ont été réalisés à l'aide d'Unitex pour les
besoins du projet.

Sur un plan théorique, nous ferons une étude comparative des
expressions temporelles touristiques sur Internet et dans les guides
touristiques papier. Nous étudierons également la façon dont le temps
est représenté sur le Web : informations sans cesse actualisées, dates
relatives, etc.

Lieu :
Université Paris-Est, bâtiment Copernic 4ème étage, salle de
séminaire

URL : http://infolingu.univ-mlv.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN@cines.fr>
-------------------------------------------------------------------------

samedi 6 décembre 2008

L'agrégation des contenus ou une recherche structurée

Dans mon billet précédent je traitais du moteur à agrégation de contenus Xclustering. Mednar est un autre moteur qui pré-élague en thèmes et sous-thèmes les résultats d'une recherche. Même si ce moteur n'est pas généraliste (il est médical) certaines de ses particularités méritent d'être soulignées.

conceptual clustering <->agrégation conceptuelle

Organisation d'objets, d'événements ou de faits en classes caractérisées, au moyen de concepts descriptifs simples.

CITATIONS

Using ... federated search technology from Deep Web Technologies, Mednar accelerates your research by returning the most relevant results from across the World Wide Web, including blogs, wikis, mainstream searches and deep web sources to one, easily navigable page.

Federated Search <-> Recherche fédérée
Recherche effectuée en une seule requête dans plusieurs sources de données hétérogènes de différents formats. (GDT)

Invisible Web <-> Web caché
Partie du Web correspondant à l'ensemble des documents Web qui ne sont pas indexés par les outils de recherche traditionnels. (GDT)

COMMENTAIRE
Un métamoteur qui interroge plusieurs bases de données dans le Web caché (par définition mieux structuré) : voilà une solution face à l'abondance de la toile et à la tendance de plus en plus mercantile des moteurs commerciaux.
Each search is done in real-time, searching the sources you select as if you were entering the search term on each individual website yourself. Duplicates are removed, the results weighed for relevance and then ranked according to how closely it matches your search word or phrase.

ranking <-> classement
Attribution d'un rang aux pages Web d'un site par un outil de recherche, de façon à ce que, à la suite d'une requête spécifique par mot-clé, les sites les plus appropriés apparaissent les premiers dans la page des résultats. (GDT)

COMMENTAIRE
Il suffit de savoir sur quels critères on se base pour identifier les doubles, pour établir le degré de pertinence et pour fixer le degré de proximité entre la requête et le bilan de recherche. Il y a toujours un jugement machine qui s'insère dans le couple requêtes-résultats d'un moteur de recherche. Dans le cas de ce moteur on peut cependant noter qu'entre la requête et son résultat il y a un souci de se baser sur des règles de référencement reconnues.
Each Mednar source is chosen for its outstanding contributions to the medical search world.

Dans la recherche avancée, il est possible de choisir le sources consultées. L'une de celles-ci est la World Health Organization. On trouve une liste de sources cochable ici que l'on peut sauvegarder. Il est possible d'être alerté sur des sujets précis. Le formulaire de recherche est muni d'un filtre temporel comprend les champs suivants : plein texte, titre et auteur.

Scénario de recherche

Je recherche « blood test ». Par défaut le moteur recherche plein texte. Si on veut fait une recherche plus thématisée on peut choisir la recherche avancée et opter pour « Title ». Ceci fait la différence entre une recherche dans laquelle on veut avoir des mentions contextuelles du terme ou des textes de fond portant sur le terme « blood test ». Remarquer qu'en cochant dans les préférences de sources WHO on ne recherche que dans le site de cette organisation dans lequel il y a éventuellement des bitextes.

Il est possible de ciseler le filtrage du terme puisque l'arborescence à gauche de l'écran se décline jusqu'à trois sous-thèmes, et cela, avant même d'avoir consulté le contenu du bilan de recherche. Une fois le bilan affiché, il est possible de trier par auteurs, par titre et par date, de relancer la requête avec filtrage par sources, de poster le bilan détaillé formaté par courriel et de créer des alertes. Pour aider à choisir les sources à consulter celles-ci sont mentionnées à droite de l'écran et des cases à cocher permettent de les sélectionner.

Noter que certaines options ne sont accessibles que par identification comme c'est le cas par exemple pour « Get Updates on This Search ». Rien n'est vraiment gratuit.

Ressources

Other free Federated Search Research Sites :

Scitopia.org- Scitopia.org is a free federated vertical search portal to the digital libraries of leading worldwide science and technology societies.

The Science.gov Alliance- Science.gov is a gateway to over 50 million pages of authoratative selected science information provided by U.S. government agencies, including research and development results.

WorldWideScience.org- WorldWideScience.org is a global science gateway-accelerating scientific discovery and progress through a multilateral partnership to enable federated searching of national and international scientific databases.

http://mednar.com/mednar/search.html

Cyber-langagerie

Rechercher sur ce blogue