Voici ce que dit encore Wikipédia :
Ce carnet traite des principes et des méthodes de la terminologie ainsi que de techno-langagerie. Yvan Cloutier, terminologue
Rechercher sur ce blogue
Cyber-langagerie
mardi 16 décembre 2008
DeepDyve - un autre moteur de recherche fédérée
Voici ce que dit encore Wikipédia :
vendredi 12 décembre 2008
La respiration et la traduction
mardi 9 décembre 2008
SUN Glossary Tool
lundi 8 décembre 2008
De l'importance des langues et des langagiers
Repérage terminologique automatisé ?
Par : Stéphanie WEISER
Titre :
Repérage automatique d'informations temporelles touristiques dans des
pages Web
Résumé :
Les expressions temporelles liées au domaine du tourisme ont des
caractéristiques précises : elles ont une visée informative et sont
assez spécifiques. Elles le sont d'autant plus lorsqu'elles figurent
dans des pages Web. Notre travail consiste à extraire ces informations
des pages Web et à les annoter afin d'alimenter la base de
connaissance d'un portail touristique sur Internet. Après avoir
caractérisé les informations que nous voulons détecter, nous verrons
les difficultés qui peuvent se poser, au moment de l'extraction ou de
l'annotation.
Sur un plan technique nous présenterons notre méthode d'extraction, et
les transducteurs (termes apperentés) qui ont été réalisés à l'aide d'Unitex pour les
besoins du projet.
Sur un plan théorique, nous ferons une étude comparative des
expressions temporelles touristiques sur Internet et dans les guides
touristiques papier. Nous étudierons également la façon dont le temps
est représenté sur le Web : informations sans cesse actualisées, dates
relatives, etc.
Lieu :
Université Paris-Est, bâtiment Copernic 4ème étage, salle de
séminaire
URL : http://infolingu.univ-mlv.fr
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN@cines.fr>
-------------------------------------------------------------------------
samedi 6 décembre 2008
L'agrégation des contenus ou une recherche structurée
- Using ... federated search technology from Deep Web Technologies, Mednar accelerates your research by returning the most relevant results from across the World Wide Web, including blogs, wikis, mainstream searches and deep web sources to one, easily navigable page.
Federated Search <-> Recherche fédérée
Recherche effectuée en une seule requête dans plusieurs sources de données hétérogènes de différents formats. (GDT)
Invisible Web <-> Web caché
Partie du Web correspondant à l'ensemble des documents Web qui ne sont pas indexés par les outils de recherche traditionnels. (GDT)
COMMENTAIRE
Un métamoteur qui interroge plusieurs bases de données dans le Web caché (par définition mieux structuré) : voilà une solution face à l'abondance de la toile et à la tendance de plus en plus mercantile des moteurs commerciaux. - Each search is done in real-time, searching the sources you select as if you were entering the search term on each individual website yourself. Duplicates are removed, the results weighed for relevance and then ranked according to how closely it matches your search word or phrase.
ranking <-> classement
Attribution d'un rang aux pages Web d'un site par un outil de recherche, de façon à ce que, à la suite d'une requête spécifique par mot-clé, les sites les plus appropriés apparaissent les premiers dans la page des résultats. (GDT)
COMMENTAIRE
Il suffit de savoir sur quels critères on se base pour identifier les doubles, pour établir le degré de pertinence et pour fixer le degré de proximité entre la requête et le bilan de recherche. Il y a toujours un jugement machine qui s'insère dans le couple requêtes-résultats d'un moteur de recherche. Dans le cas de ce moteur on peut cependant noter qu'entre la requête et son résultat il y a un souci de se baser sur des règles de référencement reconnues. - Each Mednar source is chosen for its outstanding contributions to the medical search world.
- Dans la recherche avancée, il est possible de choisir le sources consultées. L'une de celles-ci est la World Health Organization. On trouve une liste de sources cochable ici que l'on peut sauvegarder. Il est possible d'être alerté sur des sujets précis. Le formulaire de recherche est muni d'un filtre temporel comprend les champs suivants : plein texte, titre et auteur.
jeudi 4 décembre 2008
Dans le fouillis rechercher par agrégation de notions (clustering)
SearchWiki pour Google
- SearchWiki lets you customize your Google Web Search results by ranking, removing, and adding notes to them. You'll see your changes whenever you do the same searches while signed in to your Google Account, or until you decide to undo them. You can also see how other users have tailored any given search results page with their own notes and changes.
- Like a certain search result?
Click to move it to the top of the page. This result will appear at the top whenever you do the same search in the future. We'll add this marker next to it so you'll recognize it later. - Don't like a result?
Click to remove it, and it'll remain hidden whenever you do the same search in the future. - Know of a better webpage?
Click Add a result at the bottom of any search results page to add a page that you consider relevant to that search. Type the URL in the box, then click Add. When you do this search in the future, you'll see the page you suggested at the top with this marker . - Want to comment on a result?
Click to open a text box and type your comment. You'll see it the next time this result appears for any of your searches. Comments are a great way to save and recall any thoughts you had or notes you took about a particular page.
Les icônes de personnalisation de la recherche sont utilisables immédiatement. Vous les reconnaîtrez dans le bilan de recherche à la fin de chaque entrée. Il ne s'agit ni d'un module d'extension (plugin) ni d'un logiciel à installer. Ces nouvelles fonctions associées au bilan des résultats Google me semblent utiles devant l'abondance de liens non-pertinents que l'on peut récolter lors d'une recherche.
Il devient donc possible d'élaguer les résultats, de prendre des notes et de ciseler un recherche selon ses besoins. Il est aussi possible de sauvegarder une recherche, de la rappeler plus tard et de la compléter avec un autre recherche parallèle faite dans un autre onglet du navigateur. On peut ainsi monter un dossier étoffé sur un sujet donné.
Un traducteur automatique bien pensé
- Affichage parallèle horizontal ou vertical des textes.
- Affichage indépendant du texte de départ et d'arrivée.
- En mode affichage unilingue, le dépôt du curseur sur une phrase de texte affiche en popup la phrase de l'autre langue et vice versa.
- Un clic sur un lien dans le texte de la langue départ déclenche sa traduction automatique dans le fenêtre de la langue d'arrivée.
mercredi 3 décembre 2008
La mémoire de traduction de Microsoft ?
mardi 2 décembre 2008
Eurêka les faits
La liste Eurêka existe depuis janvier 1999. Au delà de 14 000 messages y ont été publiés. La liste n'a cessée de croître depuis toutes ces années : augmentation des abonnements et très peu de démissions. Eurêka est aussi un projet bénévole qui comprend la liste Eurêka, le blogue Cyber-langagerie et divers outils destinés à faciliter la recherche sur le Web. Voici la démarche Eurêka.
Veiller assidûment : la liste Eurêka est constamment à l'affût des ressources potentielles qui fusent continuellement sur la Toile, la liste est composée de 750 membres et publie mensuellement en moyenne 200 messages. Analyser et approfondir : le blogue Cyber-langagerie produit des études plus détaillées et concluantes sur certains produits langagiers. Repenser et adapter : les outils Eurêka (Iframe, CERTE, Interrogation Multisite, Wapiti) sont des créations concrètes destinées à faciliter le travail des langagiers.
Repérer dans l'anarchie
Le Web est incommensurable, on peut y déambuler tout en découvertes sans jamais passer par le même chemin. On accède à l'information par des routes imprévisibles : un site conduit à un autre, un lien dans un texte suscite notre intérêt soudainement, à la poursuite d'objectifs de veille le hasard des navigations propose souvent d'autres avenues. Le Web est très volatile et en même temps impalpable par son immensité. Il donne accès à toutes les connaissances humaines et, de ce fait, paraît des plus attrayant pour ceux qui, comme moi, s'imaginent pouvoir le conquérir.
Le veille permanente
En tant que fondateur-modérateur d'Eurêka, j'effectue quotidiennement de cinq à sept heures de veille langagière sur le Web sous forme de navigation à main-levée ou par le dépouillement de centaines de flux RSS. Je suis abonné à des dizaines de bulletin de nouvelles et j'utilise des outils de plus en plus sophistiqués (voir mon billet sur les agents intelligents). Sans ces moyens de plus en plus efficaces une veille décente serait pratiquement impossible. La quantité d'information à rechercher, à analyser et à consigner est phénoménale. Même en filtrant les données de veille, l'information valable diffusée risque d'exaspérer, de submerger ou sinon de décourager les abonnés de la liste.
L'âge d'or de la langue et des langagiers
La langue écrite prend sur la Toile mondiale une importance capitale entraînant ainsi dans son sillon les langagiers qui deviennent des facilitateurs indispensables à la communication inter-linguistique et inter-culturelle. La traduction a explosé sur le Web, les traducteurs humains sont devenus indispensables. Il n'arrivent pas à combler tous le besoins et sont remplacés souvent par des traducteurs-machines.
Yvan Cloutier, terminologue