miércoles, 17 de junio de 2015

Surface web and Deep web

Web superficial / web profunda

La búsqueda de fuentes de información importante y confiable en Internet es un ejercicio cada vez más complejo y que lleva mucho tiempo. A causa de la saturación de información en los motores de búsqueda, las páginas web que contienen la información más importante no son necesariamente las más visibles.

La Web Superficial o visible

La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda.

Las características principales de los sitios de la Web visible son:

  • Su información no está contenida en bases de datos.
  • Es de libre acceso.
  • No se requiere la realización de un proceso de registro para acceder a la información.
  • Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos 
  • Con una URL fija y accesibles desde otro enlace. 

La Web Profunda o invisible

Web invisible es el término utilizado para describir toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. 
Generalmente es información 
almacenada y accesible mediante bases de datos.
Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.

Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web:

  • La Web opaca (the opaque Web)
  • La Web privada (the private Web),
  •  La Web propietaria (the proprietary Web) 
  •  La Web realmente invisible (the truly invisible Web).

Web profunda

La Web opaca 

Está compuesta por archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están por alguno de los siguientes motivos:
  • Extensión de la indización: a veces, por economía, no todas las páginas de un sitio son indizadas en los buscadores.
  •  Frecuencia de la indización: los buscadores no poseen la capacidad de indizar todas las páginas existentes; a diario se agregan y modifican muchas y la indización no se realiza al ritmo que permita incluirlas a todas.
  • Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados, generalmente limitan el número de documentos que se muestran (entre 200 y 1000).
  •  URL desconectadas: las generaciones más recientes de buscadores, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados en otros. Si un documento no tiene un link a él, desde otro documento, será imposible que la página sea encontrada, pues no se encuentra indizada.

- La Web privada 

Consiste en las páginas Web que podrían estar indizadas en los 
buscadores pero son excluidas deliberadamente por alguno de estos motivos:
  • Las páginas están protegidas por contraseñas.
  • Contienen un archivo “robots.txt” para evitar ser indizadas.
  •  Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.
Este segmento de la Web contiene, en general, documentos excluidos deliberadamente 
por su falta de utilidad. Ya que son los dueños de la información que contienen, los que 
deciden que no se encuentre disponible, por lo que difícilmente se podrán encontrar 
mecanismos legítimos para franquear esa barrera.

- La Web propietaria 

incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.

- La Web realmente invisible 

Se compone de páginas que no pueden ser indizadas por 
limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, 
páginas generadas dinámicamente, es decir, que se generan a partir de datos que 
introduce el usuario, información almacenada en bases de datos relacionales, que no 
puede ser extraída a menos que se realice una petición específicamente.

La Web invisible o Web oculta

 ofrece recursos útiles para diferentes tipos de profesionales que buscan documentar su trabajo. En diferentes sectores de actividad y para diferentes aplicaciones:
  • Búsqueda académica (Matemáticas, Medicina, Ciencias Humanas, etc.): para encontrar documentos técnicos, artículos de revistas especializadas, tesis, informaciones de bases de datos especializadas, publicaciones científicas, etc.
  • Vigilancia tecnológica, sectorial o de la competencia: Ciertos motores de búsqueda permiten consultar grandes bases de conocimientos en dominios muy técnicos, para hacer público los últimos artículos publicados en estos dominios (por ejemplo: búsqueda por palabra clave, fuente del contenido, autor, etc.).
  • Documentación de empresas: Buscando en la Web invisible u oculta, los ciberdocumentalistas tienen acceso a informaciones más precisas y documentadas para enriquecer la base de conocimientos puesta a disposición de los colaboradores de la empresa. Existen ciertos motores de búsqueda que permiten tener acceso a las antiguas versiones de sitios web, lo que permite seguir la evolución por ejemplo.
  • Indexación de los contenidos: especialmente para internautas que buscan contenidos pertinentes para enriquecer la base de los motores de búsqueda o directorios web.

Recursos Deep web



The WWW Virtual Library se considera el catálogo más antiguo en la web y fue iniciado 
por Tim Berners-Lee, el creador de la web. 

Infoplease es una Web de consulta con más de 57.000 artículos de la prestigiosa 
enciclopedia Columbia. Facilita la consulta de información con opciones de búsqueda por 
términos o por áreas de conocimiento. Es posible acceder a un buen número de 
enciclopedias, atlas, y biografías. Y también tiene algunas ramificaciones interesantes 
como Factmonster.com para los niños y Biosearch, un motor de búsqueda sólo para 
biografías, o información de todo lo acontecido históricamente en un determinado día.

DeepWebTech ofrece cinco motores de búsqueda para temas específicos. Los motores de 
búsqueda abarcan la ciencia, medicina y negocios. El uso de estos motores de búsqueda 
específicos del tema, puede consultar las bases de datos subyacentes en la Web profunda.

TechXtra centra su información, en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, 
documentos técnicos, descargas y podcasts.

WorldWideScience
Es una puerta ciencia global - acelerar el descubrimiento científico y el progreso a través de una asociación multilateral que permita la búsqueda federada de bases de datos y portales científicos nacionales e internacionales

-  The Free Library: es a la vez un catálogo de recursos online y un sitio web completo que cubre varios dominios técnicos (negocios, comunicación, salud, derecho, etc.). Una herramienta para los profesionales y empresarios que tienen así acceso a las publicaciones más recientes: boletines de noticias de las revistas y los periódicos que son los más importantes en su dominio de interés (en inglés).


Ventaja : Esta biblioteca permite suscribirse al flujo RSS de centenas de revistas técnicas identificadas como confiables (por ejemplo: industria automóvil, ingeniería, agricultura, seguridad, bienes inmuebles, etc.)

-  Gallica: esta biblioteca reúne más de 1.200.000 referencias en las siguientes categorías: libros, mapas, manuscritos, imágenes, artículos de prensa y revistas, partituras, palabras y música, e-distribuidores.

Ventaja: Permite revisar libros enteros (por ejemplo: " Boostez vos ventes grâce aux réseaux sociaux (Favorezca sus ventas gracias a las redes sociales)", Pascal Brasier, edición Eyrolles) y el formato de lectura es agradable.

- Questia: esta biblioteca multilingüe online ofrece más de 77.000 libros en texto integral de más de 300 editoriales, y más de 4 millones de artículos de revistas y periódicos. Esta biblioteca online da un acceso privilegiado a gran número de fuentes originales.

Ventaja: ofrece un filtro de búsqueda con varios campos de búsqueda (fecha de publicación, tipo de soporte de publicación: libro, revista, revista científica, periódico, etc.)

DOAJ La base de datos de  tiene registrada más de 6.400 publicaciones, de las cuales unas 2800 están indexadas a texto completo y tiene referenciados más de 553.000 artículos.
HotSheet | Instant News - Web Directory - SuperSearch - Desktop or Mobile
 Los agentes de la Infranet son clientes Z39.50, con mecanismos para la realización automática de búsquedas de forma simultánea y que suele permitir el volcado de los registros. Entre los directorios más interesantes destacan:
           --Directorio de recursos Z39.50, a nivel internacional.
           --Directorio español de recursos Z39.50.  

Reference, Facts, News - Free and Family-friendly Resources - Refdesk.com

LibrarySpot.com: Encyclopedias, maps, online libraries, quotations, dictionaries & more.

Según Lluis Codina: 
“Internet invisible es un nombre claramente inadecuado para referirse al sector
de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería
denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado”.

3 comentarios:

  1. Mati, en la respuesta a tu comentario en mi blog te decía que me dieras la dirección de tu blog, pero se me ocurrió pinchar en tu nombre y se abrió el blog, quedé fascinada con él, extraordinario lo que has hecho, muy bien organizado, agradable a la vista, con la información necesaria, en fin que sigue trabajando en el blog pues lo haces estupendamente.
    Para tí un cariñoso saludo desde Colombia.

    ResponderEliminar