qbitácora

Wayback Machine: Archivando Internet

Anuncios

Wayback Machine es un sitio que se dedica a archivar Internet. Es decir, rastrea Internet cada cierto tiempo, como lo hacen los buscadores tipo Google, y copia todas las webs que encuentra y que son públicamente accesibles, formando una gigantesca biblioteca de webs, permitiendo su acceso de manera gratuita.

Sólo archiva los sitios que Alexa conoce. No se pueden buscar palabras clave dentro del archivo, sino solamente URL de direcciones, y seleccionar la fecha. Las webs que copian tardan un tiempo en aparecer en el archivo. No es instantáneo.

El rastreo de Internet respeta las directivas de exclusión de robots, por lo que quien no quiere aparecer en el archivo le basta con configurar de manera adecuada el fichero robots.txt de su web. O solicitar después que le borren del archivo.

Wayback Machine es parte de Internet Archive, una biblioteca digital sin ánimo de lucro de San Francisco (EE.UU.), dedicada a ofrecer acceso público general gratis de páginas webs, música, películas y libros digitales. Trabaja en colaboración con la Universidad de Toronto (Canadá) y más de 150 bibliotecas y universidades de todo el mundo.

Utilidad:

A veces no se puede o casi no se puede acceder a la dirección raíz de una web, pero sí a alguna dirección interior, y navegar a partir de esa dirección por el sitio tal y como era hace años.

Tiene sus defectos:

Pero el texto está ahí, guardado, y también fotos. Incluso a veces he llegado a descargar algún vídeo. Lo he usado muchas veces. Siempre que me encuentro una web o una dirección que ya no existe, pruebo a ver si la encuentro ahí,  y me resulta muy útil. Hay, sin embargo, mucha gente que todavía no lo conoce.

Se puede acceder desde estas direcciones:

Ejemplos de webs que ya no existen:

Otros servicios:

Alguien ha desarrollado una herramienta gratuita que usa las páginas almacenadas en Internet Archive y en otros sitios, como el caché de Google y otros buscadores, para intentar reconstruir sitios borrados: Warrick.

Detalles técnicos.

Empezó a funcionar en 1996. Es mucho más grande que cualquier biblioteca del mundo. Crece a un ritmo de 2 TB/mes, y tiene unos 2 petabytes de información almacenada. 🙂

Large Scale Data Repository: PetaBox

La copia de las webs es automática, con un bot como los que usan los motores de búsqueda. El de Wayback Machine se llama Heritrix, y es de código abierto y escrito en Java.

Otros.

El caché de los buscadores (Google, Yahoo!, etc.) al hacer una búsqueda, también se puede usar para encontrar una página que esté inaccesible tal y como estaba cuando fue incorporada a su caché al hacer el rastreo de Internet, pero no indica en qué fecha, y sólo mantiene la página copiada en el último rastreo.

Hay más sitios que se encargan de archivar Internet, pero sólo un subconjunto de Internet, y no de todo como hace Internet Archive a través de Wayback Machine. Este subconjunto pueden ser sitios de un país, (como el proyecto Pandora australiano), o sólo sitios científicos, etc. Sitios de este tipo:

Fuente y más información: Wayback Machine FAQ.

Etiqueta: Wayback Machine.

Anuncios

Anuncios