Wayback Machine es un sitio que se dedica a archivar Internet. Es decir, rastrea Internet cada cierto tiempo, como lo hacen los buscadores tipo Google, y copia todas las webs que encuentra y que son públicamente accesibles, formando una gigantesca biblioteca de webs, permitiendo su acceso de manera gratuita.
Sólo archiva los sitios que Alexa conoce. No se pueden buscar palabras clave dentro del archivo, sino solamente URL de direcciones, y seleccionar la fecha. Las webs que copian tardan un tiempo en aparecer en el archivo. No es instantáneo.
El rastreo de Internet respeta las directivas de exclusión de robots, por lo que quien no quiere aparecer en el archivo le basta con configurar de manera adecuada el fichero robots.txt de su web. O solicitar después que le borren del archivo.
Wayback Machine es parte de Internet Archive, una biblioteca digital sin ánimo de lucro de San Francisco (EE.UU.), dedicada a ofrecer acceso público general gratis de páginas webs, música, películas y libros digitales. Trabaja en colaboración con la Universidad de Toronto (Canadá) y más de 150 bibliotecas y universidades de todo el mundo.
Utilidad:
- Acceder a webs que ya no existen, como por ejemplo, las alojadas en el hospedaje Geocities, que cerró el 26-10-2009.
- Examinar cómo era una web en el pasado, cómo ha cambiado.
- Investigar sobre algo del pasado. Ejemplo: El de abajo del sistema operativo BeOS.
A veces no se puede o casi no se puede acceder a la dirección raíz de una web, pero sí a alguna dirección interior, y navegar a partir de esa dirección por el sitio tal y como era hace años.
Tiene sus defectos:
- A veces falla, y el sitio buscado no fue archivado.
- A veces funciona muy lento. Normal, porque es gigantesco.
- Tampoco lo almacena todo: La funcionalidad dinámica hecha con JavaScript, formularios, o bases de datos (la web profunda) no se guardan, por lo que puede que se vea distinto o más feo de como era la web original.
Pero el texto está ahí, guardado, y también fotos. Incluso a veces he llegado a descargar algún vídeo. Lo he usado muchas veces. Siempre que me encuentro una web o una dirección que ya no existe, pruebo a ver si la encuentro ahí, y me resulta muy útil. Hay, sin embargo, mucha gente que todavía no lo conoce.
Se puede acceder desde estas direcciones:
- URL actual: http://www.archive.org/web/web.php
- Espejo en la Biblioteca de Alejandría (Egipto): http://archive.bibalex.org/
- Nuevo prototipo: http://www.waybackmachine.org/web/
Ejemplos de webs que ya no existen:
- Sitios en Geocities, como Numbers of the Beast, citado en mi artículo sobre los números esotéricos 6 y cía., que lo acabo de corregir y ahora lo enlazo a través de Wayback Machine.
- Grupos de la Escena famosos: Página base y última página almacenada (01-08-2008).
- FAQ del sistema operativo Be: Página base y última página válida almacenada (05-12-2001). Observar que hasta el 07-01-2006 almacenaron páginas, primero con la página de despedida, y luego ya con el dominio borrado.
Otros servicios:
- Foro.
- Blog.
- Colecciones de propósito especial, sobre asuntos como el 11-S, el tsunami asiático o las elecciones yanquis del año 2000.
- Tienen un servicio de pago para instituciones: Archive-It.
Alguien ha desarrollado una herramienta gratuita que usa las páginas almacenadas en Internet Archive y en otros sitios, como el caché de Google y otros buscadores, para intentar reconstruir sitios borrados: Warrick.
Detalles técnicos.
Empezó a funcionar en 1996. Es mucho más grande que cualquier biblioteca del mundo. Crece a un ritmo de 2 TB/mes, y tiene unos 2 petabytes de información almacenada. 🙂
La copia de las webs es automática, con un bot como los que usan los motores de búsqueda. El de Wayback Machine se llama Heritrix, y es de código abierto y escrito en Java.
Otros.
El caché de los buscadores (Google, Yahoo!, etc.) al hacer una búsqueda, también se puede usar para encontrar una página que esté inaccesible tal y como estaba cuando fue incorporada a su caché al hacer el rastreo de Internet, pero no indica en qué fecha, y sólo mantiene la página copiada en el último rastreo.
Hay más sitios que se encargan de archivar Internet, pero sólo un subconjunto de Internet, y no de todo como hace Internet Archive a través de Wayback Machine. Este subconjunto pueden ser sitios de un país, (como el proyecto Pandora australiano), o sólo sitios científicos, etc. Sitios de este tipo:
- Minerva: Library of Congress Web Archives.
- Pandora: Australia’s Web Archive.
- The National Library of Canada Electronic Collection: El primer archivo web de una biblioteca nacional, iniciado en 1995.
- The UK Web Archiving Consortium.
Fuente y más información: Wayback Machine FAQ.
Etiqueta: Wayback Machine.