Es probable que quieras clonar un sitio web al completo. Hacer eso a mano es verdaderamente complejo si el sitio web es bastante grande. Por eso se han creado herramientas como HTTrack Website Copier para que lo hagan de forma rápida y automática por ti mismo. Además, al ser multiplataforma lo podrás hacer desde Windows, Linux, Android, etc.
Seguramente has probado algunas extensiones para navegadores web que hacen cosas similares, algunas que seleccionan solo las imágenes de un sitio y las descargan todas, etc. Pero con esta herramienta verás desde el primer momento su poder y ventajas.
Los motivos por los que se busca clonar un sitio web completo pueden ser múltiples. Desde un estudiante que busca analizar la estructura de un sitio para comprender mejor cómo funciona, hasta un desarrollador que desea clonar un sitio, e incluso algunas algo más maléficas como las prácticas de phishing falsificando sitios webs.
Sobre HTTrack Website Copier
HTTrack Website Copier es una potente herramienta de código abierto que permite automatizar el proceso de copias en línea de sitios web para luego poder navegar por el de forma local (offline) o para otros fines. Como he comentado, es multiplataforma, por lo que puede ser usado en macOS, Android, Windows y Linux,… En el caso de la versión de Linux, es una herramienta de línea de comandos, pero existe una interfaz gráfica (GUI) disponible para usarla en modo gráfico como en otros sistemas. Si te interesa, se llama webhttrack.
Bien, una vez dicho esto, para comenzar con el tutorial, lo primero que debes hacer es descargar el paquete para instalar y poder tener la herramienta en tu sistema. Para ello, puedes ir a la web oficial del proyecto desde donde tienes varios tipos de paquetes para los diferentes sistemas.
Usar HTTrack para clonar web
Ahora ya lo tienes, sabes qué es y debería estar instalado en tu sistema operativo para poder continuar con estos pasos que muestran cómo puedes clonar un sitio web completo de una forma muy sencilla:
- Ejecuta HTTrack en tu sistema.
- Verás primero una pantalla de Bienvenida. Simplemente pulsa Siguiente y listo.
- En la siguiente pantalla se te pide el Nombre del proyecto (pon el nombre que quieras), Categoría del proyecto (lo que considers) y Ruta base (selecciona la carpeta donde se guardará la página web clonada). Una vez hecho, pulsa Siguiente.
- Ahora se te pide la acción a realizar, en este caso debes seleccionar «Copiar todas las páginas del sitio (copia múltiple). Otras opciones es «Continuar con un proyecto interrumpido», «Actualizar proyecto existente» (descarga solo las novedades si hubiera cambios en la web), y «Versión portable» para grabar en medios extraibles.
- También debes seleccionar la dirección web de la página que quieres copiar (o varias con la opción Añadir). Incluso permite extraer nombres de sitios de un .txt si son muchos. Recuerda que la dirección debe ser en formato https://www.nombreweb.es/directorio.
- Elige también el nivel de profundidad para la copia, eso significará que solo copia la web en sí o también los hiperenlaces hacia sitios enlazados. Si haces una copia más completa el tamaño de la copia será mayor. Una vez elegido, pulsa Siguiente.
- Ahora aparece una nueva pantalla con los últimos parámetros a elegir antes de comenzar. Por ejemplo, retrasar el inicio, copiar solo la configuración, efectuar un volcado en otro momento, etc. Selecciona lo que necesites, si no, déjalo como está. Pula Finalizar.
- Ahora se inicia el proceso que durará más o menos dependiendo del tamaño de la web clonada y de lo profunda que sea la copia. Si ves que tarda demasiado, puedes salir y continuar en otro momento por donde se había quedado.
- Al final aparece un mensaje avisando de que ha terminado el copiado y mostrará un registro de errores que se hayan podido producir durante el proceso o ver el sitio descargado. Puedes salir simplemente con Finalizar y listo. Ahora tendrás el sitio completo descargado en la ruta que le indicaste.
Espero que te haya servido de ayuda esta guía práctica.