Le web profond ou invisible

Web Profond ou Invisible

Je viens de lire un article sur le web profond, ou web invisible qui tel un iceberg dérivant dans l’antarctique fait apparaitre 20 à 25% de sa masse quand près de 75 à 80% restent cachés sous la ligne de flottaison.

Du coup, je suis allé fouiner un peu et je suis allé de découvertes en découvertes. Je savais que le Web tel qu’il apparait n’était qu’une partie d’un tout, mais les articles que j’ai parcouru m’ont fait découvrir une réalité que je ne connaissais pas.
Comme quoi, on apprend tous les jours !

1)Web & Internet

Il existe souvent une confusion et un amalgame sémantique entre le web et l’internet. Ce sont pourtant 2 concepts différents. L’internet, ou Net, est un réseau informatique mondial constitué d’un ensemble de réseaux nationaux, régionaux et privés, interconnectés entre eux.

Sur ce réseau, vous pouvez accéder à un certain nombre de services via des protocoles de communication spécifiques : – le World Wide Web (protocole http://www) – le Mail (smtp), Usenet (Newsgroups ou groupes de discussion). Exemple : sci.med. oncology , le P2P, …

2) Qu’est ce que le web profond me direz vous ?

Le « web profond » et par extension le web invisible désigne la partie du web partiellement ou non indexée par les moteurs de recherche.

Pour appréhender la notion de Web Visible & invisible, il est nécessaire de comprendre le fonctionnement d’un moteur de recherche. Un moteur de recherche “aspire” puis indexe des pages web. Lors d’une recherche sur un moteur, l’internaute lance une requête sur les bases de données de ces serveurs.

Le Web Invisible est constitué des documents web mal ou non indexés par les moteurs de recherche généralistes conventionnels.  En effet, le fonctionnement des moteurs pour “aspirer” le web implique que, d’une part, les pages soient bien liées entre elles via les liens hypertexte (http://) qu’elles contiennent et que, d’autre part, elles soient identifiables par les robots du moteur. Or dans certains cas, ce parcours de liens en liens et cette identification de pages est difficile, voire impossible :
-Documents ou bases de données sont trop volumineux pour être entièrement indexés.
-Pages sont protégées par l’auteur (balise meta qui stoppe le robot des moteurs)
-Pages sont générées seulement dynamiquement,
-Formats de documents, pages orphelines,
-manque de liens de retour et de problèmes de navigation interne du site,
-contenu selon le pays d’origine de l’internaute, de la langue du navigateur ou d’une autre méthode que les moteurs de recherche considèrent comme cloaking, etc….

3) Quelles recherches sur le web profond ?
Recherche académique (mathématiques, médecine, sciences humaines, etc.) : pour trouver des documents techniques, articles de revues spécialisées, thèses, informations issues de bases de données spécialisées, publications scientifiques, etc.

Veille technologique/sectorielle/concurrentielle : certains moteurs permettent d’interroger de larges bases de connaissances sur des domaines très techniques, pour faire remonter les derniers articles parus sur ces domaines (ex : recherche par mot-clé, source du contenu, auteur, etc.).

Documentation d’entreprise : en cherchant le web profond, les cyberdocumentalistes ont accès à des informations plus précises/documentées pour enrichir la base de connaissances mise à disposition des collaborateurs de l’entreprise. A noter que certains outils de recherche permettent d’avoir accès aux anciennes versions de sites web, ce qui permet d’en suivre l’évolution par exemple.

Indexation de contenus : notamment pour les net surfeurs, qui cherchent des contenus pertinents pour enrichir la base des moteurs de recherche/portails ou annuaires web.

4) Les outils

FindArticles (http://www.findarticles.com)
-Type : Base de données
-Langue : Anglais
-Type d’accès : Gratuit et Payant
Ressources : Moteur de recherche interne, Indexation des magazines, Articles d’actualités, Classement d’articles par sujet.

Biznar.com (http://biznar.com/biznar)
Type : ressources pour le business
Ressources : Études sectorielles, articles de revues spécialisées, webinars

Google Scholar (http://scholar.google.com)
-Type : Moteur de recherche
-Langue : Anglais
-Type d’accès : Gratuit Google Scholar est un moteur de recherche spécialisé dans les docu- ments académiques, les livres blancs, les articles scientifiques et métho- dologiques

Allsearchengines (http://www.allsearchengines.com)
-Type : Répertoire
-Type d’accès : Gratuit
-Langue : Anglais
Ce répertoire recense, à travers 30 catégories, plus de 500 moteurs spé- cialisés par technologies ou secteurs (médecine, géographie, actualités, sciences, sport…)

FinderSeeker (http://www.finderseeker.com)
-Type : Moteur
-Type d’accès : Gratuit
-Langue : Anglais
FinderSeeker recherche parmi des centaines de moteurs classés par thématique (automobile, géographie, sciences, religion…) ou pays.

Search Engine Colossus (http://www.searchenginecolossus.com)
Type : Répertoire
-Type d’accès : Gratuit
-Langue : Anglais
Liste impressionnante de moteurs de recherche par pays. Une liste de 198 pays et 61 territoires est disponible. Au travers de chacune de ces catégories sont présentés les moteurs de recherche par pays.

Giga Presse (http://www.presse-on-line.com)
Type : Répertoire de Journaux
-Type d’accès : Gratuit
-Langue : Français
-Ressources : Répertoire de journaux et magazines, Recherche d’articles, Revue du Net, Actualité du jour.

And so on….

Sources : tomy, Ch. Asselin

Cette entrée a été publiée dans Non classé. Sauvegarder le permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *