MARILEN MARQUEZ 5º”B” WEB INVISIBLE WEB SUPERFICIAL Y PROFUNDA WEB SUPERFICIAL: Es lo que se conoce como WWW: - compuesta por un conjunto de paginas estáticas públicamente accesibles - constituye una porción de un 17% relativamente muy pequeña de toda la Web - La información que se recupera debe ser cuidadosamente evaluada y valida. - Internet tiene varios servicios: WWW y muchos más. LA WEB PROFUNDA: Se conoce como Web invisible - Contenidos dinámicos: paginas dinámicas que retornan en respuesta a una búsqueda - Contenidos no enlazados: páginas que no tienen enlaces o vínculos entrantes. - Contenidos de acceso limitado: que requiere registrarse, prohibiendo que los buscadores los incluyan en sus bases de datos - Contenidos “scripted”: páginas que solamente son accesibles a través de enlaces producidos por Java Script y Flash, requieren un tratamiento especial. - Contenidos no textuales: archivos multimedia, en otros formatos o “use Net” Todos estos contenidos son aplicaciones que nos permiten la movilidad de la pagina y interactuar!(Java) CLASIFICACION DE LA WEB PROFUNDA: - OPACA PRIVADA PROPIETARIA REALMENTE INIVISIBLE WEB OPACA: Se compone de todas aquellas páginas que son excluidas por: EXTENDION DE LA INDIZACION: Por economía, no todas las painas de un sitio son indizadas en los buscadores. FRECUENCIA DE LA INDIZACION: los buscadores indexan de forma periódica y la WWW cambia diariamente NUMERO MAXIMO DE RESULTADOS VISIBLES: se limita a los 200 y 1000 documentos, si bien el numero de resultados es mayor URLS S DESCONECTADOS: los buscadores presentan los resultados en base a la cantidad de referencias o enlaces a los sitios, en caso contrario la página no será indizada. LA WEB PRIVADA: Las paginas Web son excluidas por alguna de estas causas: - Se encuentran protegidos por contraseñas Contienen un archivo “robots.txt” para evitar ser indizadas. Contienen un campo “no índex” para evitar que el buscador índice la parte correspondiente al cuerpo de la pagina. LA WEB PROPIETARIA - Incluye aquellas paginas en las que es necesario registrarse en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito. LA WEB REALMENTE INIVISIBLE Las páginas no son indizadas por las siguientes razones: Incluyen formatos: como PDF, PostScript, Flash, Shockwave, programas ejecutables ya archivos comprimidos. Se generan dinámicamente: a partir de datos que introducen el usuario. Almacenan la información en las beses de datos: que no pueden ser extraída a menos que realice una petición específica. ¿COMO BUSCAR EN LA WEB INIVIBLE? - Los buscadores tradicionales han añadido funcionalidades adicionales para la búsqueda en la llamada Web profunda. - También existen buscadores especializados en ese segmente de la Web, que no solo buscan en la Web superficial, sino también en la Web Invisible. EJEMPLO COMO BUS CAR EN LA WEB VISIBLE: - Los buscadores tradicionales han añadido funcionalidades adicionales para la búsqueda en la llamada Web profunda. También existen buscadores especializados en ese segmento de la Web, que no sólo buscan en la Web superficial, sino también en la Web Invisible. Forman parte de la Web profunda - Las bibliotecas: digitales, catálogos de bibliotecas, bases de datos de bibliotecas, bases de datos bibliográficas. Bases de datos. Revistas electrónicas y archivos de documentos. Documentos en formatos no indizables, (pdf, ppt, doc, mp3, wav, avi, mpeg, etc.) Catálogos de editoriales, Directorios de Publicaciones periódicas. Archivos (instituciones y organismos de gobierno). Repositorios de artículos de revistas, tesis y literatura gris. Directorios de bases de datos Guías de sitios, Revistas electrónicas, Obras de referencia: enciclopedias, diccionarios, tesauros, etc. Foro, Blogs, Noticias (diarios). Sitios de remates, Paginas blancas/amarillas, Directorios Revistas electrónicas, en las que es necesario un registro previo y las que sólo se puede recuperar la información mediante búsquedas en su base de datos. Organismos públicos de gobierno, ONGs, etc., que en sus sitios web disponen de consultas a sus bases de datos. Directorios de Bibliotecas Catálogos Directivos Libros El archivo de Internet - Asume el reto de preservar el pasado de Internet - La mayor parte de la información que contiene es estadounidense. - Se ingresa a través del sitio: http://www.archive.org/index.php - De sus secciones se destaca Wayback MAchine, que contiene miles de millones de páginas, grabadas desde 1996