Ce carnet traite des principes et des méthodes de la terminologie ainsi que de techno-langagerie. Yvan Cloutier, terminologue

Rechercher sur ce blogue

Cyber-langagerie

mardi 16 décembre 2008

DeepDyve - un autre moteur de recherche fédérée

J'ai souvent lu dernièrement des textes portant sur l'incapacité de Google à donner une information objective. Certains ont même affirmé que YouTube a tendance a être plus consulté que Google. Il semble aussi parallèlement que les moteurs fouillant le Web caché se développent de plus en plus. Voilà sans doute une solution pour l'accès à une information objective qui est un atout à l'exercice des professions langagières.

Le moteurs du Web caché sont de plus en plus sophistiqués. J'en ai décrit certains dans des billets précédents (voir les liens à la fin) et je m'y intéresse parce que soupçonne que ces moteurs seront les seuls moteurs valables sous peu. Le problème est qu'ils sont pour la plupart actuellement en version bêta et qu'on veut sur ces sites vendre un technologie. À consulter ces moteurs on constate souvent que pour avoir accès à l'information recherchée il faut payer. La recherche d'information sera-t-elle bientôt payante ? Il ne faut oublier que le Web caché constitue la partie cachée de l'iceberg et donc plus volumineux que le Web des moteurs génériques.

Voici les caractéristiques du Web caché d'après Wikipédia :

« Dynamic contentdynamic pages which are returned in response to a submitted query or accessed only through a form, especially if open-domain input elements (such as text fields) are used; such fields are hard to navigate without domain knowledge.

Unlinked content – pages which are not linked to by other pages, which may prevent Web crawling programs from accessing the content. This content is referred to as pages without backlinks (or inlinks).

Private Web – sites that require registration and login (password-protected resources).
Contextual Web – pages with content varying for different access contexts (e.g., ranges of client IP addresses or previous navigation sequence).

Limited access content – sites that limit access to their pages in a technical way (e.g., using the Robots Exclusion Standard, CAPTCHAs or pragma:no-cache/cache-control:no-cacheHTTP headers[citation needed]), prohibiting search engines from browsing them and creating cached copies.

Scripted content – pages that are only accessible through links produced by JavaScript as well as content dynamically downloaded from Web servers via Flash or AJAX solutions.
Non-HTML/text content – textual content encoded in multimedia (image or video) files or specific file formats not handled by search engines. »

L'info disséminée sur le Web cachée est privilégiée et elle a fait l'objet d'une classification humaine basée sur des principes reconnus de collection des données.
Voici ce que dit encore Wikipédia :

« To discover content on the Web, search engines use web crawlers that follow hyperlinks. This technique is ideal for discovering resources on the surface Web but is often ineffective at finding deep Web resources. For example, these crawlers do not attempt to find dynamic pages that are the result of database queries due to the infinite number of queries that are possible. It has been noted that this can be (partially) overcome by providing links to query results, but this could unintentionally inflate the popularity (e.g., PageRank) for a member of the deep Web.

One way to access the deep Web is via federated search based search engines. Search tools such as Science.gov are being designed to retrieve information from the deep Web. These tools identify and interact with searchable databases, aiming to provide access to deep Web content.

Another way to explore the deep Web is by using human crawlers instead of algorithmic crawlers. In this paradigm referred to as Web harvesting, humans find interesting links of the deep Web that algorithmic crawlers can't find. »

Parmi le moteurs je vous présente après cette longue introduction le moteur DeepDyve qui innove encore avec des options d'interface qui ajoutent à ce que j'ai déjà présenté dans d'autres billets.

vendredi 12 décembre 2008

La respiration et la traduction

Traduire c'est aussi stressant on le sait tous. La traduction est une profession de précision, de recherche, de concentration et de gestion serrée des échéanciers. Elle implique aussi des relations humaines et donc de la diplomatie. Le traducteur est souvent confronté à des choix  professionnels importants tant du point de vue de sa pratique que du point de vue financier. Toutes ces obligations sont un très grande source d'accumulation de frustrations et peuvent générer des pressions énormes sur un être humain.

La respiration contrôlée que j'ai souvent pratiquée a été très efficace pour moi dans plusieurs étapes de ma vie et j'y crois. Elle aide significativement à diminuer les stress et a d'autres effet (comme une influence sur le poids)  que je ne soupçonnais pas comme vous le verrez en consultant les références de ce billet.

« Le docteur O’Hare estime que d’agir sur sa respiration permet d’influencer positivement le rythme cardiaque. Des exercices quotidiens de quatre ou cinq minutes suffisent pour chasser le stress. »

Pour convivialiser l'exercice d'un respiration contrôlée le docteur O'Hare met en ligne sur son site un ingénieux guide visuel de respiration qu'il appelle Le guide respiratoire. Voir cette page :

Voir aussi l'entrevue accordée à Christaine Charette à Radio-Canada ici :

Yvan Cloutier



mardi 9 décembre 2008

SUN Glossary Tool

Définitivement toutes les grosses boîtes informatiques (Microsoft et Google aussi) reconnaissent le besoin des banques de terminologie et de la traduction. Je viens de tomber sur les site de Sun Microsystems et j'y ai trouvé une base terminologique et des ressources pour les traducteurs.

Le Sun Glossary Tool est ici

NOTE : ce Glossaire multilingue a été ajouté dans le CERTE à cette adresse


et les ressources ici


Yvan


lundi 8 décembre 2008

De l'importance des langues et des langagiers

Je ne peux m'empêcher de citer en partie ce texte de Térésa Cabré qui exprime d'une manière admirable le rôle prépondérant des langues sur le Web . Il n'est pas donné à tous de s'exprimer d'une manière concise et claire.

« Dans la société contemporaine, les langues ont acquis un rôle stratégique très important. Le multilinguisme s'impose aujourd'hui comme une réalité qui ne doit pas être évitée, mais au contraire encouragée. Il se traduit par une attitude de respect envers l'autre, envers ce qui est différent. Il est également perçu comme un fait écologique de préservation de la diversité réelle, d'une diversité qu'il est fondamental de conserver comme un bien naturel et patrimonial de l'humanité. Cependant, la diversité linguistique peut aussi représenter un obstacle dans des circonstances dans lesquelles on se veut efficace et univoque. Dans de telles situations, la préservation de la diversité, si elle n'est pas correctement définie, n'est pas viable. Nous évoluons donc entre deux tendances: l'une conduisant vers l'unité linguistique, l'autre vers la diversité. »


Yvan Cloutier

Repérage terminologique automatisé ?

Je reçois le courriel qui suit. 

Il traite de la possibilité de repérer des unités terminologiques sur le Web à l'aide d'un logiciel. Si je comprends bien il s'agit là de ce que l'on pourrait appeler du « dépouillement terminologique automatisé ». 

Devant l'abondance et le fouillis, cela me semble une solution des plus efficaces. Créer une communauté d'agents intelligents qui exercent une veille terminologique dans des domaines précis. Ceux-ci pourraient même être entraînés à rechercher dans les textes des contextes définitoires pertinents, c'est-à-dire être capables de reconnaître les contextes et de les comparer. La technologie évolue à la vitesse de l'éclair et la langue qui la décrit également de sorte que ces agents pourraient être forts appréciés dans un avenir rapproché. 

Bien entendu le tout sous supervision humaine.


Début du courriel ===========================
Prochain séminaire interne de linguistique :


Par : Stéphanie WEISER

Titre :
Repérage automatique d'informations temporelles touristiques dans des
pages Web

Résumé :
Les expressions temporelles liées au domaine du tourisme ont des
caractéristiques précises : elles ont une visée informative et sont
assez spécifiques. Elles le sont d'autant plus lorsqu'elles figurent
dans des pages Web. Notre travail consiste à extraire ces informations
des pages Web et à les annoter afin d'alimenter la base de
connaissance d'un portail touristique sur Internet. Après avoir
caractérisé les informations que nous voulons détecter, nous verrons
les difficultés qui peuvent se poser, au moment de l'extraction ou de
l'annotation.

Sur un plan technique nous présenterons notre méthode d'extraction, et
les transducteurs (termes apperentés) qui ont été réalisés à l'aide d'Unitex pour les
besoins du projet.

Sur un plan théorique, nous ferons une étude comparative des
expressions temporelles touristiques sur Internet et dans les guides
touristiques papier.  Nous étudierons également la façon dont le temps
est représenté sur le Web : informations sans cesse actualisées, dates
relatives, etc.

Lieu :
Université Paris-Est, bâtiment Copernic 4ème étage, salle de
séminaire

URL : 
http://infolingu.univ-mlv.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <
LN@cines.fr>
-------------------------------------------------------------------------

samedi 6 décembre 2008

L'agrégation des contenus ou une recherche structurée

Dans mon billet précédent je traitais du moteur à agrégation de contenus Xclustering. Mednar est un autre moteur qui pré-élague en thèmes et sous-thèmes les résultats d'une recherche. Même si ce moteur n'est pas généraliste (il est médical) certaines de ses particularités méritent d'être soulignées. 

conceptual clustering <->agrégation conceptuelle
Organisation d'objets, d'événements ou de faits en classes caractérisées, au moyen de concepts descriptifs simples. 

CITATIONS
  • Using ... federated search technology from Deep Web Technologies, Mednar accelerates your research by returning the most relevant results from across the World Wide Web, including blogs, wikis, mainstream searches and deep web sources to one, easily navigable page.

    Federated Search <-> Recherche fédérée
    Recherche effectuée en une seule requête dans plusieurs sources de données hétérogènes de différents formats. (GDT)


    Invisible Web <-> Web caché
    Partie du Web correspondant à l'ensemble des documents Web qui ne sont pas indexés par les outils de recherche traditionnels. (GDT)


    COMMENTAIRE
    Un métamoteur qui interroge plusieurs bases de données dans le Web caché (par définition mieux structuré) : voilà une solution face à l'abondance de la toile et à la tendance de plus en plus mercantile des moteurs commerciaux.

  • Each search is done in real-time, searching the sources you select as if you were entering the search term on each individual website yourself. Duplicates are removed, the results weighed for relevance and then ranked according to how closely it matches your search word or phrase.

    ranking <-> classement
    Attribution d'un rang aux pages Web d'un site par un outil de recherche, de façon à ce que, à la suite d'une requête spécifique par mot-clé, les sites les plus appropriés apparaissent les premiers dans la page des résultats. (GDT)

    COMMENTAIRE
    Il suffit de savoir sur quels critères on se base pour identifier les doubles, pour établir le degré de pertinence et pour fixer le degré de proximité entre la requête et le bilan de recherche.  Il y a toujours un jugement machine qui s'insère dans le couple requêtes-résultats d'un moteur de recherche. Dans le cas de ce moteur on peut cependant noter qu'entre la requête et son résultat il y a un souci de se baser sur des règles de référencement reconnues.

  • Each Mednar source is chosen for its outstanding contributions to the medical search world.
  • Dans la recherche avancée, il est possible de choisir le sources consultées. L'une de celles-ci est la World Health Organization. On trouve une liste de sources cochable ici que l'on peut sauvegarder. Il est possible d'être alerté sur des sujets précis. Le formulaire de recherche est muni d'un filtre temporel comprend les champs suivants : plein texte, titre et auteur.
Scénario de recherche

Je recherche « blood test ».  Par défaut le moteur recherche plein texte. Si on veut fait une recherche plus thématisée on peut choisir la recherche avancée et opter pour  « Title ». Ceci fait la différence entre une recherche dans laquelle on veut avoir des mentions contextuelles du terme ou des textes de fond portant sur le terme « blood test ». Remarquer qu'en cochant dans les préférences de sources WHO on ne recherche que dans le site de cette organisation dans lequel il y a éventuellement des bitextes.

Il est possible de ciseler le filtrage du terme puisque l'arborescence à gauche de l'écran se décline jusqu'à trois sous-thèmes, et cela, avant même d'avoir consulté le contenu du bilan de recherche. Une fois le bilan affiché, il est possible de trier par auteurs, par titre et par date, de relancer la requête avec filtrage par sources, de poster le bilan détaillé formaté par courriel et de créer des alertes. Pour aider à choisir les sources à consulter celles-ci sont mentionnées à droite de l'écran et des cases à cocher permettent de les sélectionner.





Noter que certaines options ne sont accessibles que par identification comme c'est le cas par exemple pour « Get Updates on This Search ». Rien n'est vraiment gratuit. 


Ressources

Other free Federated Search Research Sites : 

Scitopia.org- Scitopia.org is a free federated vertical search portal to the digital libraries of leading worldwide science and technology societies.

The Science.gov Alliance- Science.gov is a gateway to over 50 million pages of authoratative selected science information provided by U.S. government agencies, including research and development results.

WorldWideScience.org- WorldWideScience.org is a global science gateway-accelerating scientific discovery and progress through a multilateral partnership to enable federated searching of national and international scientific databases. 

jeudi 4 décembre 2008

Dans le fouillis rechercher par agrégation de notions (clustering)

Nous avons tous comme but lors d'une recherche sur le Web de repérer rapidement l'information. Les moteurs courants sont souvent décevants parce que, pour la plupart, ils ne font pas d'élagage des données et sont souvent axés sur des critères commerciaux. 

Google par exemple devient de moins en moins séduisant pour les langagiers se permettant par exemple de laisser tomber les accents, d'extrapoler des formes dérivées, etc. Nous sommes biens habitués à Google qui devient de plus en plus marchand mais peut être un jour faudra-t-il songer à un autre moteur.  Voici un texte qui fait réfléchir : 

« It's called SEO—search engine optimization—and it's pretty much all anyone working with Web sites ever talks about nowadays ... But in fact, it centers around the idea that Google sucks so much that companies think they need to use SEO to get the results they deserve.

... From a user's perspective, once you learn how Google does what it does, it's a miracle that you ever get the right results. And from my experience, the right results in many circumstances are nearly impossible to obtain—and may never be obtainable in the future.
Let's look at some of the problems that have developed over the years.

Inability to identify a home site. All the search engines have this habit, but often it is laughable. You'd think that if I were looking for Art Jenkins, and Art Jenkins had a Web site named Artjenkins.com, search engines would list that first, right? Most often this page is never listed anywhere.

Too much commerce, not enough information. There seems to be an underlying belief, especially at Google, that the only reason you go online is to buy something. People merely looking for information are a nuisance. This is made apparent anytime you look for information about a popular product. All you find are sites trying to sell you the product. Hey, here's a challenge: Ask Google to find you a site that honestly compares cell-phone plans and tells you which is best. Try it! All you get are thousands of sites with fake comparisons promoting something they are selling.
...

Parked sites. Have you ever gone to look for something and found what seems like the perfect site near the top of the Google results? You click on it only to find one of those fake "parked" sites, where people park domain names, pack them with links to other sites, and hope for random clicks that pay them 10 cents each. How does page ranking, if it works, ever manage to give these bogus sites a high number?

Unrepeatable search results. Ever run a search a week later and get completely different results? In the end, you have to use the search history and hope you can find it. Can things change so drastically day-to-day that the search results vary to an extreme month-to-month? This is compounded by the weird results you get when you are logged in to Google. These are somehow customized for you? In what way?

Google sign-in changes a query's results to an extreme with no discernible benefit. Often two people are on a call trying to discuss something and both will try finding something online. The conversation often goes like this: "Here it is, I found it. Type in the search term 'ABCD Fix' and it's the fourth result listed." "I don't see it. The fourth one down is a pill company." "You typed in ABCD Fix, right?" "Yeah." This goes on for a while until you realize that one of the two people is logged into Google.

The solution to this entire mess, which is slowly worsening, is to "wikify" search results somehow without overdoing it. Yahoo! had a good idea when its search engine was actually a directory with segments "owned" by communities of experts. These people could isolate the best of breed, something Google has never managed to do. The basis for Google page-ranking is to equate popularity with quality, and once you look at the information developed by SEO experts, you learn that this strategy barely works.

We have to suffer until something better comes along, but there is at least one crucial fix that could be easily implemented: user flagging. Parked sites, for instance, could be flagged the way you flag spam on a message board or a miscategorized post on craigslist. The risk here is that creeps trying to shut down a specific site could swamp Google with false flags, so maintaining integrity would be difficult. People with their own agendas have already infiltrated and controlled aspects of craigslist and Wikipedia, unfortunately. On Wikipedia, for example, a group pushing the global-warming agenda prevents almost any post with contrary data or opinions, no matter how minor the point.

One suggestion floating around involves the semantic Web, which anticipates even more SEO tricks—and requires a certain level of honesty that can never be maintained. I suggest rethinking the basic organization of the Web itself, using the Google News concept. In other words, compartmentalize the Web to an extreme. Tagging might help. But you should be able just to search through a subsegment and check a box that eliminates merchants with faux-informational sites.

And speaking of check boxes, over the years there have been numerous attempts at creating an advanced search mechanism utilizing check boxes and a question-and-response AI network. You'd think that idea would have gotten further than it has. Hopefully, someone will conceptualize something new that works better than what we have today. The situation is just deteriorating too fast. »


Personnellement je pense qu'il importe d'avoir l'oeil ouvert. Si on tient compte de arguments troublants mentionnés plus haut et devant l'abondance de la Toile un début de solution pourrait être une pré-classification des résultats de recherche pour sauver du temps. 

C'est le principe même des banques de terminologie dans lesquelles le filtrage par domaines est apparu depuis le début comme un moyen efficace de rechercher plus rapidement le bon équivalent (terme traduit) face à la polysémie de certains mots. Ce principe du filtrage est appliqué aux moteurs de recherche par agrégation qui catégorisent les données à l'aide de descripteurs. Un de ces moteurs est Xclustering.

L'avantage de ce moteur est qu'il affiche à gauche de l'écran une hiérarchie de descripteurs et de sous-descripteurs qui permet un débroussaillage souvent très efficace des données brutes qui deviennent des informations utilisables. Dans le cas d'expressions contenant des termes polysémiques comme « heat sensor » par exemple il est préférable d'interroger « sensor » pour obtenir les usages du terme dans plusieurs domaines. 



Xclustering peut, une fois les résultats affichés, faire un recherche dans Wikipédia.



À essayer ce moteur parce que rien ne peut être pris pour acquis :



Liens sur le même sujet

Why Google must die

Google doit-il disparaître ?

Yvan Cloutier, terminologue

SearchWiki pour Google

Google permet désormais de personnaliser les résultats d'une recherche. Voici ce qui est nouveau.

  • SearchWiki lets you customize your Google Web Search results by ranking, removing, and adding notes to them. You'll see your changes whenever you do the same searches while signed in to your Google Account, or until you decide to undo them. You can also see how other users have tailored any given search results page with their own notes and changes.

  • Like a certain search result?
    Click Like_it to move it to the top of the page. This result will appear at the top whenever you do the same search in the future. We'll add this marker Move_up next to it so you'll recognize it later.

  • Don't like a result?
    Click Don't_like_it to remove it, and it'll remain hidden whenever you do the same search in the future.

  • Know of a better webpage? 
    Click Add a result at the bottom of any search results page to add a page that you consider relevant to that search. Type the URL in the box, then click Add. When you do this search in the future, you'll see the page you suggested at the top with this marker Move_up.

  • Want to comment on a result?
    Click Comment to open a text box and type your comment. You'll see it the next time this result appears for any of your searches. Comments are a great way to save and recall any thoughts you had or notes you took about a particular page.

Les icônes de personnalisation de la recherche sont utilisables immédiatement. Vous les reconnaîtrez dans le bilan de recherche à la fin de chaque entrée. Il ne s'agit ni d'un module d'extension (plugin) ni d'un logiciel à installer. Ces nouvelles fonctions associées au bilan des résultats Google me semblent utiles devant l'abondance de liens non-pertinents que l'on peut récolter lors d'une recherche. 

Il devient donc possible d'élaguer les résultats, de prendre des notes et de ciseler un recherche selon ses besoins. Il est aussi possible de sauvegarder une recherche, de la rappeler plus tard et de la compléter avec un autre recherche parallèle faite dans un autre onglet du navigateur.  On peut ainsi monter un dossier étoffé sur un sujet donné.


Un traducteur automatique bien pensé

On ne peut manquer de s'intéresser aux traducteurs automatiques comme langagiers même si les résultats sont décevants. Beaucoup d'efforts (par Google et Microsoft par exemple)  sont déployés sur le Web actuellement pour perfectionner les technologies de traduction automatisée. 

Voir cette page



Ce traducteur de Microsoft innove :
  • Affichage parallèle horizontal ou vertical  des textes.
  • Affichage indépendant du texte de départ et d'arrivée.
  • En mode affichage unilingue, le dépôt du curseur sur une phrase  de texte affiche en popup la phrase de l'autre langue et vice versa. 

  • Un clic sur un lien dans le texte de la langue départ déclenche sa traduction automatique dans le fenêtre de la langue d'arrivée.

mercredi 3 décembre 2008

La mémoire de traduction de Microsoft ?









Est-ce que le titre de ce billet est fondé ? Je tombe sur cette page que vous connaissez peut être et qui me semble utile pour la terminologie informatique. 

Je pense qu'il faut supposer que la langue de départ est par défaut l'anglais puisqu'elle n'apparaît pas dans le menu déroulant des langues. Dans le menu « Language » la langue choisie est donc la langue d'arrivée. 

On y trouve un dictionnaire de traduction de termes informatiques et des définitions souvent étoffées.

Dans le menu « Product », un nombre impressionnant de produits Microsoft est sélectionnable pour filtrer les requêtes.


mardi 2 décembre 2008

Eurêka les faits

La liste Eurêka existe depuis janvier 1999. Au delà de 14 000 messages y ont été publiés. La liste n'a cessée de croître depuis toutes ces années : augmentation des abonnements et très peu de démissions. Eurêka est aussi un projet bénévole qui comprend la liste Eurêka, le blogue Cyber-langagerie et divers outils destinés à faciliter la recherche sur le Web. Voici la démarche Eurêka.

Veiller assidûment : la liste Eurêka est constamment à l'affût des ressources potentielles qui fusent continuellement sur la Toile, la liste est composée de 750 membres et publie mensuellement en moyenne 200 messages. Analyser et approfondir : le blogue Cyber-langagerie produit des études plus détaillées et concluantes sur certains produits langagiers. Repenser et adapter : les outils Eurêka (Iframe, CERTE, Interrogation Multisite, Wapiti) sont des créations concrètes destinées à faciliter le travail des langagiers.

Repérer dans l'anarchie

Le Web est incommensurable, on peut y déambuler tout en découvertes sans jamais passer par le même chemin. On accède à l'information par des routes imprévisibles : un site conduit à un autre, un lien dans un texte suscite notre intérêt soudainement, à la poursuite d'objectifs de veille le hasard des navigations propose souvent d'autres avenues. Le Web est très volatile et en même temps impalpable par son immensité. Il donne accès à toutes les connaissances humaines et, de ce fait, paraît des plus attrayant pour ceux qui, comme moi, s'imaginent pouvoir le conquérir.

Le veille permanente

En tant que fondateur-modérateur d'Eurêka, j'effectue quotidiennement de cinq à sept heures de veille langagière sur le Web sous forme de navigation à main-levée ou par le dépouillement de centaines de flux RSS. Je suis abonné à des dizaines de bulletin de nouvelles et j'utilise des outils de plus en plus sophistiqués (voir mon billet sur les agents intelligents). Sans ces moyens de plus en plus efficaces une veille décente serait pratiquement impossible. La quantité d'information à rechercher, à analyser et à consigner est phénoménale. Même en filtrant les données de veille, l'information valable diffusée risque d'exaspérer, de submerger ou sinon de décourager les abonnés de la liste.

L'âge d'or de la langue et des langagiers

La langue écrite prend sur la Toile mondiale une importance capitale entraînant ainsi dans son sillon les langagiers qui deviennent des facilitateurs indispensables à la communication inter-linguistique et inter-culturelle. La traduction a explosé sur le Web, les traducteurs humains sont devenus indispensables. Il n'arrivent pas à combler tous le besoins et sont remplacés souvent par des traducteurs-machines.


Yvan Cloutier, terminologue


jeudi 20 novembre 2008

Un publicité efficace et futée

Un peu de diversion

En naviguant je tombe sur une mini-fenêtre dans laquelle je vois des mouches qui s'activent.



Au coin inférieur droit il est écrit : Kill the bugs by clicking on them 
Déjà captivé j'avance mon curseur dans la fenêtre et il se transforme en tue-mouches. Voici les fenêtres qui s'affichent ensuite.



et la fenêtre suivante



On trouve souvent des publicités idiotes sur le sites Web mais celle-ci est vraiment géniale, bravo!

Voir ici


YC


Portails multilingues avec flux RSS (CE)

The Joint Research Centre (JRC) is a Directorate-General of the European Commission. The JRC has for many years worked on highly multilingual text analysis applications and has also contributed to the dissemination of the DGT (Directorate-General for Translation) Translation Memory. In addition to developing various reliable high-usage in-house tools, the JRC made three news aggregation and analysis applications of the Europe Media Monitor (EMM) family publicly accessible. EMM aggregates news from about 1,200 news portals world-wide in 42 languages. The news portals are visited around the clock and EMM updates its pages every ten minutes. The non-public, Commission-internal EMM applications additionally ingest news from about 20 different newswires. EMM's sites receive up to 1.2 million hits per day. Much information is available via RSS feeds.

  • MedISys: EMM's Medical Information System selects the health-related EMM news and additionally gathers documents from about 150 medical web sites. MedISys displays the medical news according to diseases, symptoms, organisations and themes and has statistics-based early warning functions for each category. A second, restricted site offers more functionality to EU public health organisations. 42 languages.
    http://medusa.jrc.it/medisys/homeedition/all/home.html
  • NewsExplorer: Summary of the news in 19 languages for each 24-hour window; grouping of related news into clusters; linking of daily clusters over time and across languages (multilingual and cross-lingual topic tracking); visualisation of time lines and of geographical news coverage; information extraction to detect and disambiguate persons, organisations and locations; individual, daily-updated pages for 700,000 names; detection of quotations by and about people; automatic calculation of social networks.
    http://press.jrc.it/NewsExplorer/home/en/latest.html

mercredi 19 novembre 2008

Un assistant futé

Citations 

Zotero is an easy-to-use yet powerful research tool that helps you gather, organize, and analyze sources (citations, full texts, web pages, images, and other objects), and lets you share the results of your research in a variety of ways. An extension to the popular open-source web browser Firefox, Zotero includes the best parts of older reference manager software (like EndNote)—the ability to store author, title, and publication fields and to export that information as formatted references—and the best parts of modern software and web applications (like iTunes and del.icio.us), such as the ability to interact, tag, and search in advanced ways.

Zotero integrates tightly with online resources; it can sense when users are viewing a book, article, or other object on the web, and—on many major research and library sites—find and automatically save the full reference information for the item in the correct fields. Since it lives in the web browser, it can effortlessly transmit information to, and receive information from, other web services and applications; since it runs on one’s personal computer, it can also communicate with software running there (such as Microsoft Word). And it can be used offline as well (e.g., on a plane, in an archive without WiFi).

  • Automatic capture of citation information from web pages
  • Flexible notetaking with autosave
  • Automatic capture of citation information from web pages
  • Runs right in your web browser
  • Saves records and notes in any language; interface available in over 30 languages
  • Storage of PDFs, files, images, links, and whole web pages
  • Integration with Microsoft Word and OpenOffice
Commentaire
  • Le logiciel le plus utilisé est certainement le navigateur. Zotero s'intègre parfaitement dans Firefox au haut ou au bas de l'écran. C'est un de ses plus grands avantages. Il agit comme un secrétaire toujours présent prêt à consigner tout ce qui passe dans votre navigateur.
     
  • En quelques clics, il classifie, indexe, ajoute des notes personnelles. Et pourquoi pas lui faire indexer un glossaire (ou sinon tous vos glossaires unilingues et multilingues dans Word ou autre format) au passage, et un autre et une autre ... il deviendra votre ressource terminologique principale puisqu'il a des capacités de recherche assez évoluées.

  • Il est redimensionnable en mode mi-écran ,on peut aussi l'afficher plein écran et le cacher et le rappeler d'un seul clic.

  • Il se présente en trois colonnes :  « The left column contains your full library (“My Library”) and your individual collections, which are subsets of “My Library”; the middle column shows the items in the collection that is highlighted in the left column; the right column shows information about the item that is selected in the middle column. »

  • Lorsqu'activé Zotero ne change en rien l'affichage et la gestion des onglets.

  • Gestion des documents indexés. 

  • J'ai lu qu'il pouvait indexer les bases de données (à vérifier). 

  • Zotero utilise les tags et le classement des documents dans plusieurs catégories. La gestion des tags intervient dans le filtrage des recherches en combinaison avec les mots clés.

  • Zotero reconnaît les références et les ajoute automatiquement à la collection (My Library) : il affiche alors un icône cliquable à droite de l'URL. Il est possible à main levée d'ajouter des commentaire, des mots clefs et d'indexer le document. Zotero consigne tout sur un document : les auteurs, le résumé, le nom du journal, le volume, le numéro, la date, l'ISSN, le DOI, la date et l'heure à laquelle on a accédé au document.

  • Zotero permet la sélection (surlignement) d'une portion de texte et sur le clic droit de la souris affiche un menu contextuel pour ajouter une note et indexer.
Un souvenir du passé

Certains se souviendront d'Alta Vista Discovery qui avait intéressé plus d'un langagier à l'époque et qui est disparu de la toile suite au déclin d'AV. Discovery permettait la création d'une base de données personnelle et une interrogation avec tous les opérateurs du moteur sur son propre PC. Il me semble que Zotero effectue le même travail avec plus de possibilités.






Yvan Cloutier, terminologue

mardi 18 novembre 2008

Mise à jour du CERTE

Le Centre de recherche terminologique Eurêka a été mis à jour.
Voir le nouveau dossier Web As a Corpus.


samedi 15 novembre 2008

Just The Word

Citations
  • JustTheWord is a completely new kind of aid to help you with writing English.
  • If English is your first language, JustTheWord can help you express that elusive idea with le mot juste.
  • When we write, we search our knowledge of words in two ways. We choose between words that mean similar things. A thesaurus gives us access to this sort of knowledge. But our choice constrains and is constrained by the other words in the sentence. We know, or need to know, which word combinations sound natural. A dictionary gives us access to some of this sort of knowledge.
  • Type a word into the box and hit return or Show Combinations. JustTheWord will give you a detailed description of the company which that word keeps in modern-day English. To help you find your way to the information you need, in the right-hand frame you'll find the part(s)-of-speech and the types of relation that the word is found in. If you're looking for the right adjective to modify a noun you've chosen, click on the 'ADJ mod N*' link. If you want a verb with the noun as its object, follow the 'V obj N*' link. The star * marks your input, so you can tell the difference between for instance 'N* and N' and 'N and N*'. Within many types of relation you'll find the uses of the word clustered into groups with a similar meaning. The words that are not assigned to a cluster are grouped together at the end of the relation. 
  • Lire la suite ... 
Mon commentaire

Excellent me semble-t-il pour varier la manière de s'exprimer et les tournures de phrases en anglais. Sûrement un outil utile pour un langagier qui doit réinventer sans cesse l'expression.



Bilan Show Combinations


Bilan Show Alternatives



Yvan Cloutier, terminologue

jeudi 13 novembre 2008

Your mail Sir !


J'avais un logiciel de courriel qui me signifiait l'arrivée d'une nouvelle missive par un personnage qui marchait sur mon écran (j'entendais ses pas). Il ressemblait à un majordome anglais et lançait : « Your mail Sir ! » en me présentant une lettre sur un plateau d'or. Il demeurait planté au premier plan jusqu'à ce que je m'occupe de ce courriel.  Je l'ai répudié parce qu'il était trop fidèle à sa tâche. DOMMAGE ... avec un peu d'entraînement il aurait pu un  jour me servir mon café! 

Un poste de travail pour le traducteur

Outils nécessaires
Introduction

Avec des outils simples et surtout gratuits le travail de traduction peut être simplifié au maximum du point de vue de l'ergonomie du poste de travail. Dans mon esprit, un nombre réduit de clics et un accès visuel à tous les outils utiles sur le bureau virtuel concourent à faciliter le travail du langagier. Ai-je raison ? Je pense qu'il importe avec toutes les applications que nous utilisons d'avoir un écran de travail fixe et de ne pas avoir à chercher dans la barre des tâches ou les signets ce que l'on veut utiliser.  - Je perçois le poste de travail comme une table de travail physique sur laquelle on dépose tous les outils spécifiques à un projet donné : dictionnaires généraux, de traduction, banques de terminologie (bien que numériques !!), etc. 

Le navigateur Wapiti

Wapiti a été pensé par un langagier pour des langagiers.  Il a été développé par  Sébastien Doucet qui y a suggéré d'excellentes améliorations. Nous avons travaillé en étroite collaboration.

Wapiti  est un navigateur très particulier (encore en développement) qui affiche par défaut trois fenêtres intégrées. Elles peuvent être réduites à deux ou une selon les besoins. Chaque fenêtre peut contenir par défaut une page Web  (ou vierge) ainsi que ses propres onglets. Wapiti est muni de la fonction innovatrice Ajout de bitextes. Comme pour les favoris, on peut ajouter puis afficher dans des onglets plusieurs bitextes et les gérer.

Wapiti Split Browsers
Un bitexte est un seul texte dans deux langues différentes dont l'une est traduite. Dans Wapiti les bitextes s'affichent uniquement dans les fenêtres gauche et droite du bas (2 et 3) et sont accessibles par un seul onglet : un clic sur un onglet bitexte affiche donc une adresse Web dans la fenêtre de gauche jumelée à une autre adresse dans la fenêtre de droite. L'onglet bitexte a d'abord été pensé pour afficher un couple langue de départ et langue d'arrivée, mais on peut l'employer à des fins différentes.

Le premier objectif de Wapiti est donc de comparer des textes traduits selon la procédure suivante : fenêtre 1 = moteur de recherche de bitextes, fenêtre 2 = texte de la langue de départ, fenêtre 3 = texte de la langue d'arrivée. La routine prévue est : générer un bilan de recherche de bitextes en haut, explorer les résultats, glisser-déposer un lien langue de départ à gauche et glisser-déposer le texte traduit à droite. 

Centre de recherche terminologique Eurêka (CERTE)

Le CERTE (ou l'ancien portail Eurêka) est une page Web bi-cadres qui affiche dans le cadre gauche des ressources terminologiques reconnues, classées par dossiers, qui peuvent être consultées dans le cadre droit. Sans changer de page Web il est donc possible d'y faire des recherches terminologiques comparatives dans des ouvrages langagiers majeurs. 

CERTE


















Iframe

Iframe est un nouveau venu dans le outils Eurêka. Il présente les ressources, dans ce cas des mémoires de traduction, imbriquées dans un seule page Web. Dans le cas des mémoires de traduction le contenu est plus sujet à l'attestation. On se méfie plus des textes traduits et il est plus probable que l'on veuille confronter les différences pour la traduction d'un même concept d'une mémoire à l'autre. 

Pratiquement, lorsque que je travaille avec les interfaces mentionnées dans ce billet j'ouvre un éditeur de texte primaire comme Wordpad (ou Notepad) qui me sert de cahier de notes pour consigner les textes opportuns puisés dans les différentes ressources terminologiques. Cela me permet par la suite de tirer des conclusions et de faire un choix.


Iframe

Google terminologique

Le google terminologique est destiné à la consultation des banques de terminologie. Il a besoin d'une refonte. Il permet de consulter plusieurs banques de terminologie à partir d'un seul formulaire. Le Google terminologique affiche les résultats dans des « popups » permettant là aussi un comparaison des résultats.

Pratiquement comment simplifier ?

Tous les outils mentionnés plus haut sont intégrés dans Centre de recherche terminologique Eurêka. Voici donc rassemblés tous les outils susceptibles simplifier le poste de traducteur. 

Mode d'emploi
  • Télécharger Wapiti ici. L'application est très légère.
  • Accéder à Wapiti et cliquer sur Outils -> Option pour obtenir la fenêtre qui suit. Ajouter l'adresse http://pages.globetrotter.net/mverge/eureka/demoFrameset.html dans la case (No 1) et cliquer sur Valider (No 2) pour fermer la fenêtre. Désormais à chaque lancement de Wapiti le CERTE sera affiché en haut par défaut et il y aura deux pages vierges dans les fenêtres du bas. Comme le CERTE se veut un collection de ressources terminologiques reconnues il me semble logique de procéder ainsi.



  • Dans la fenêtre qui suit, cliquer sur l'icône maison (No 5) pour afficher l'adresse du CERTE. C'est désormais la page d'accueil du cadre supérieur. Cette page peut être rappelée en cliquant sur le même icône.

  • Le CERTE renferme toutes les ressources mentionnées dans ce billet et bien d'autres que je vous laisse découvrir. À cette étapes votre poste langagier est déjà très polyvalent. Voyons un peu comment ?
Dans le cadre du haut la combinaison du CERTE  et de Wapiti permettent les fonctions et présentations suivantes :
  • Redimensionnement du cadre ou plein cadre (icône No 6 dans la fenêtre précédente qui fonctionne à bascule) pour un plus grand espace de travail.

  • Le CERTE peut être utilisé normalement dans le cadre supérieur selon son principe « choisissez à gauche et consultez à droite ».

  • Un ressource du CERTE peut être récupérée dans un nouvel onglet : un clic droit de la souris sur un hyperlien du cadre gauche et choisir  dans le menu contextuel Ouvrir dans un nouvel onglet. Autant de ressources que l'on veut peuvent être affichées de cette manière et sauvegardées sous forme de favori : menu Favori ->Ajouter aux favoris.

  • Chaque onglet du cadre supérieur possède les caractéristiques du mode redimensionnement de cadre ou plein cadre. Le basculement entre le mode plein cadre et trois cadres permet de profiter d'un plus espace de travail pour le CERTE ou sinon de l'espace des cadres inférieurs.

  • Dans le cadre supérieur chaque lien d'un onglet peut être ajouté au favoris.

  • En mode trois cadres, tout lien qui apparaît dans un onglet du cadre supérieur ou dans le CERTE peut être glissé-déposé (drag and drop) dans les cadres gauche ou droit inférieurs. On dispose alors de deux fenêtres pour faire des appariements de ressources qui se complètent et qui s'interrogent séparément. Exemples, un onglet bitexte peut afficher IATE jumelé avec GDT, un autre Wikipedia et Balnéo, un autre Electropedia et GEMET, etc. Chacune de ces combinaisons peut être sauvegardée dans le menu Bitextes -> Ajouter un bitexte. Voici des exemples :

Exemple : cadres inférieurs Wikipédia et Balnéo



  • Dans la fenêtre qui suit, on a accès à trois banques simultanément. L'ajout d'autres onglets en haut et de bitextes en bas peut faire varier les combinaisons à l'infini. Dans chacun des cadres il toujours possible de poser le curseur sur lien d'utiliser Ouvrir dans un nouvel onglet. Note : une amélioration à venir dans Wapiti est la capacité de récupérer les texte que l'on traduit et de l'éditer.





Yvan Cloutier, terminologue

mardi 11 novembre 2008

Un mini-concordancier : CONCORDANCER


Citations



Mes commentaires

  • D'utilisation simple et interface légère.
  • Concordancer est muni d'un traducteur qui passe probablement par les différentes versions de Wikipédia pour donner des équivalents : les traductions sont parfois approximatives.


  • Tous les mots de l'écran d'affichage des concordances sont hyperliés. Un clic affiche la fenêtre Word in context qui contient la phrase complète.


  • Le corpus de référence me semble très limité pour la recherche de mots scientifiques et techniques. Ce que je retiens c'est simplicité et la légèreté de l'interface et la convivialité de présentation des données. Un modèle à imiter à mon avis pour d'autres concordanciers que j'ai présenté dans ce blogue.
Yvan Cloutier, terminologue


lundi 10 novembre 2008

TIME MAGAZINE CORPUS (100 MILLION WORDS, 1923-2006)

Citations

« This website allows you to quickly and easily search more than 100 million words of text of American English from 1923 to the present, as found in TIME magazine. You can see how words and phrases have increased and decreased in usage and see how words have changed meaning over time. »

À noter

  • Accès au texte complet

  • Interface convivial

  • Copie-écran des options possibles : 




  • Choose the type of display

    CHART: This option presents "bar charts" that indicate the overall frequency for all matching words or phrases in each section of the corpus. This is probably the best option for comparing between different genres (spoken, magazines, etc), or to compare time blocks since 1990. (Example of chart display)

    LIST: Choose this option to see a listing of each individual word or string that matches the query. (More information on types of search strings).

    COMPARE WORDS: This allows you to compare the collocates (nearby words) for two different words, such as small / little, or start / begin, which provides insight into the difference in meaning or use of these two words. (More information on word comparisons).

  • Beaucoup d'autres options sont possibles.

  • Une excellente source à consulter si on tient compte de la notoriété du magazine qui a toujours été très près de l'actualité. 



EUROPEAN PARLIAMENT INTERPRETING CORPUS

Citations du site 

« EPIC is an open, parallel, trilingual (Italian, English and Spanish) corpus of European Parliament speeches and their corresponding interpretations currently being compiled at SITLeC (University of Bologna). 
....

In 2004 several European Parliament plenary sessions were recorded off the news channel EbS (Europe by Satellite). By selecting different audio channels, it was possible to record the original speakers and the interpreters working in the various booths (in our case, Italian, English and Spanish). All the material thus obtained is being digitised and edited by using dedicated software in order to create a multimedia archive. At the moment, video and audio files are not available on-line, but information on the content and the structure of the archive can be obtained by clicking on Multimedia Archive in the left hand-side bar. 

...

The final step in the compilation of EPIC is the alignment of source texts and target texts in order to create parallel subcorpora (see Aligned Texts). Overall, EPIC is made up of three subcorpora of original texts (Org-It, Org-En and Org-Es) and 6 subcorpora of interpreted texts (indicated as Int followed by the language direction, e.g. En-It for English into Italian) covering all the combinations and directions of the three languages, as well as 6 aligned subcorpora of source and target texts (indicated as Org + Int).

        






Liens associés 





Iframe Eureka

Iframe Eureka. 
Interrogation des mémoires de traduction
Notes : Les quatres fenêtre sont interrogeables séparément à partir d'une seule page. Les langues par défaut de LinearB sont l'anglais et le français mais il est possible de les changer comme celles des autres sites. Utiliser le clic droit de la souris sur les liens Open in new Tab ou Open in new Window pour plus de convivialité. Cette page fonctionne dans IE, Firefox et Google Chrome.



samedi 8 novembre 2008

FranceTerme, veille de termes intégrée à une banque de terminologie

Du nouveau et de l'inédit chez FranceTerme. En naviguant sur le site je tombe sur des fils RSS et des bulletins de nouvelles qui relient à un veille terminologique très pointue sur les ajouts faits dans la banque. 

Le filtrage fin se fait par domaines, exemple : si le domaine Alimentaire vous intéresse vous pouvez demander une alerte sur ce domaine en particulier. À noter que ce site est voué en partie à la néologie. Quoi de mieux que de se tenir au courant des néologismes dans ses domaines d'intérêt.

J'espérais depuis longtemps que les alertes soient intégrées un jour dans banques de terminologie et voilà qui est fait ! Certainement un exemple à suivre.




Je note également sur ce site des remarques sur : Qu'est-ce que la terminologie ? 
Voici le texte.  Les mots qui me semblent importants sont en gras :

« Une langue n’est pas une entité figée, fixée une fois pour toutes : sans cesse des mots disparaissent, meurent, des mots nouveaux apparaissent…le monde change, et le lexique évolue.

Pour désigner les réalités nouvelles, le français, comme toutes les autres langues, s’enrichit de nouveaux mots -les néologismes- qui sont créés à partir du français ou empruntés aux langues étrangères.

Dans la langue courante, cette création est en quelque sorte spontanée, l’inventivité des jeunes, des journalistes, sans parler des écrivains et poètes… se déploie dans la plus grande liberté. Il suffit de penser à tous ces mots nouveaux, gouvernance, altermondialisme, écocitoyen, slam …) que l’on entend dans les médias, que l’on voit dans les journaux. Tantôt ils passent de mode rapidement, tantôt ils s’implantent durablement dans l’usage, et dans les dictionnaires.

Dans les domaines techniques et scientifiques, les données sont différentes et d’une toute autre ampleur : pour exprimer des notions souvent très complexes, les professionnels emploient dans leur domaine d’activité particulier des mots ou des expressions très précis, des termes, qui se dénombrent en centaines de milliers (par comparaison, un dictionnaire de langue générale compte 50 000 à 100 000 mots au maximum).

Une terminologie est d’abord un ensemble de termes spécialisés relevant d’un même domaine d’activité qui a son vocabulaire propre: terminologie de la médecine, de l’informatique, du sport, de la marine… Le mot terminologie désigne aussi une activité, l’ « art de repérer, d’analyser et, au besoin, de créer le vocabulaire pour une technique donnée, dans une situation concrète de fonctionnement, de façon à répondre aux besoins d’expression de l’usager » de produire les termes et définitions pour désigner les notions et réalités d’un domaine : récemment il a fallu créer génome, cybercaméra, biocarburant, minimessage…

La terminologie (ou terminographie) s’applique aux langages spécialisés comme la lexicographie touche à la langue générale. Une notion, une définition, un terme : c’est le principe d’élaboration de toute terminologie ; chaque notion nouvelle doit être définie avec précision et désignée par un terme, le plus adapté, le plus parlant, le plus clair possible. 
Elle est proche de la traduction, se fondant sur le sens d’une notion pour donner des termes équivalents d’une langue à l’autre. C’est enfin une discipline linguistique qui étudie les concepts spécialisés et les termes qui les désignent en langue de spécialité. »



Y.C.

Suivis

À mon sujet

Ma photo
Carleton-sur-Mer, Gaspésie, Canada
Cyber-terminologue