Le moteurs du Web caché sont de plus en plus sophistiqués. J'en ai décrit certains dans des billets précédents (voir les liens à la fin) et je m'y intéresse parce que soupçonne que ces moteurs seront les seuls moteurs valables sous peu. Le problème est qu'ils sont pour la plupart actuellement en version bêta et qu'on veut sur ces sites vendre un technologie. À consulter ces moteurs on constate souvent que pour avoir accès à l'information recherchée il faut payer. La recherche d'information sera-t-elle bientôt payante ? Il ne faut oublier que le Web caché constitue la partie cachée de l'iceberg et donc plus volumineux que le Web des moteurs génériques.
Voici les caractéristiques du Web caché d'après Wikipédia :
« Dynamic content – dynamic pages which are returned in response to a submitted query or accessed only through a form, especially if open-domain input elements (such as text fields) are used; such fields are hard to navigate without domain knowledge.
Unlinked content – pages which are not linked to by other pages, which may prevent Web crawling programs from accessing the content. This content is referred to as pages without backlinks (or inlinks).
Private Web – sites that require registration and login (password-protected resources).
Contextual Web – pages with content varying for different access contexts (e.g., ranges of client IP addresses or previous navigation sequence).
Limited access content – sites that limit access to their pages in a technical way (e.g., using the Robots Exclusion Standard, CAPTCHAs or pragma:no-cache/cache-control:no-cacheHTTP headers[citation needed]), prohibiting search engines from browsing them and creating cached copies.
Scripted content – pages that are only accessible through links produced by JavaScript as well as content dynamically downloaded from Web servers via Flash or AJAX solutions.
Non-HTML/text content – textual content encoded in multimedia (image or video) files or specific file formats not handled by search engines. »
L'info disséminée sur le Web cachée est privilégiée et elle a fait l'objet d'une classification humaine basée sur des principes reconnus de collection des données.
Voici ce que dit encore Wikipédia :
Voici ce que dit encore Wikipédia :
« To discover content on the Web, search engines use web crawlers that follow hyperlinks. This technique is ideal for discovering resources on the surface Web but is often ineffective at finding deep Web resources. For example, these crawlers do not attempt to find dynamic pages that are the result of database queries due to the infinite number of queries that are possible. It has been noted that this can be (partially) overcome by providing links to query results, but this could unintentionally inflate the popularity (e.g., PageRank) for a member of the deep Web.
One way to access the deep Web is via federated search based search engines. Search tools such as Science.gov are being designed to retrieve information from the deep Web. These tools identify and interact with searchable databases, aiming to provide access to deep Web content.
Another way to explore the deep Web is by using human crawlers instead of algorithmic crawlers. In this paradigm referred to as Web harvesting, humans find interesting links of the deep Web that algorithmic crawlers can't find. »
Parmi le moteurs je vous présente après cette longue introduction le moteur DeepDyve qui innove encore avec des options d'interface qui ajoutent à ce que j'ai déjà présenté dans d'autres billets.