Cómo convertir múltiples páginas web en archivos PDF con Wget
Anuncio
Hay muchas herramientas en línea, extensiones de navegador y complementos de escritorio para convertir una página web en un PDF. Si usa regularmente estas herramientas, puede encontrarse con una situación en la que necesita convertir múltiples enlaces de una vez. Hacerlos uno por uno es una pérdida de tiempo y tedioso.
Puede automatizar esta tarea a través de una sencilla utilidad de línea de comandos llamada Wget. Con la ayuda de algunos scripts o aplicaciones y esta herramienta, le mostraremos cómo guardar varias páginas web en un archivo PDF.
¿Por qué wget?
Wget es un paquete de software gratuito para descargar archivos de la web. Pero también es una herramienta perfecta para reflejar una página web completa en su computadora. Aquí están las razones:
- No es interactivo, lo que significa que puede funcionar en segundo plano y le permite transferir datos sin requerir su presencia.
- Wget comprende la estructura de directorios del sitio web. Puede seguir enlaces en la página HTML para crear una versión local del sitio web remoto. En el proceso, también respeta el archivo robots.txt.
- Incluso puede funcionar en conexiones de red lentas o inestables. Si el servidor admite la recuperación, volverá a intentarlo hasta que todo el archivo se transfiera a su computadora.
- Wget admite servidores proxy. Ayuda a aligerar la carga de la red, acelerar el proceso de recuperación y proporcionar acceso detrás de los firewalls.
Instalando Wget
En macOS
La forma más rápida de instalar Wget es a través de Homebrew. Es un administrador de paquetes para macOS para instalar utilidades y aplicaciones útiles de Unix. Consulte este artículo sobre cómo instalar aplicaciones macOS a través de Homebrew. Luego, escriba
brew install wget
Obtendrá un progreso en tiempo real de la instalación de todas las herramientas (si las hay) necesarias para que Wget se ejecute en su Mac. Si ya ha instalado Homebrew, asegúrese de ejecutar brew upgrade para obtener la última versión de esta utilidad.
En Windows 10
Hay muchas versiones de Wget disponibles para Windows 10. Dirígete a Eternally Board para descargar la última versión de 64 bits. Coloque el archivo ejecutable en una carpeta y cópielo en la unidad C :.
Ahora agregaremos la ruta Wget a la variable de entorno de su sistema para ejecutar esta herramienta desde cualquier directorio. Vaya a Panel de control> Sistema y haga clic en Configuración avanzada del sistema . En la ventana que se abre, haga clic en Variables de entorno .
Seleccione Ruta en Variables del sistema y haga clic en Editar . Luego, haga clic en el botón Nuevo ubicado en la esquina superior derecha de la ventana. Escriba C: \ wget y haga clic en Aceptar .
Abra el símbolo del sistema y escriba wget-h para probar si todo funciona. En PowerShell, escriba wget.exe -h para cargar el menú de ayuda de Wget.
Guarde sus enlaces en un archivo de texto
Como estamos lidiando con múltiples enlaces, pegar enlaces uno por uno es una tarea difícil. Afortunadamente, hay extensiones de navegador para ayudarlo a completar esta tarea.
Link Klipper: Extrae todos los enlaces en una página web como un archivo CSV o TXT. Incluso puede arrastrar un área rectangular en la página web para copiar enlaces de forma selectiva. El archivo se guarda en la carpeta Descargar .
Snap Links Plus: le permite enlazar elementos en una página y hacer cosas con ellos. Mantenga presionado el botón derecho del mouse y arrastre un rectángulo de selección alrededor de los enlaces. Presione la tecla Control y copie sus enlaces al portapapeles.
Configurar un directorio
Wget funciona como un rastreador web mediante la extracción de los activos de la página web de los archivos HTML, incluidos logotipos, fuentes, miniaturas de imágenes, CSS y archivos JavaScript. También intenta crear una estructura de directorio que se asemeje al servidor remoto. Cree un directorio separado para las descargas de Wget para guardar páginas web y también para evitar el desorden.
En su terminal Mac o en un símbolo del sistema en Windows, ingrese
mkdir Wgetdown
Esto crea una nueva carpeta en el directorio de inicio. Puedes nombrarlo como quieras. A continuación, ingrese
cd Wgetdown
Cambio de directorio. Esto cambia el directorio de trabajo actual a Wgetdown.
Detalles de los comandos de Wget
Después de crear el directorio, usaremos el comando Wget real
wget -E -H -k -K -p -i [Path to Your Text File]
Wget usa GNU getopt para procesar argumentos de línea de comandos. Cada opción tiene una forma larga junto con las cortas. Las opciones largas son convenientes para recordar, pero toma tiempo escribirlas. También puede mezclar diferentes estilos de opciones. Veamos los detalles de estas opciones:
- -E (–adjust-extension) : si se descarga un archivo de tipo “app / xhtml + xml” o “text / html” y la URL no termina con el HTML, esta opción agregará HTML al nombre del archivo.
- -H (–span-hosts) : cuando intenta recuperar enlaces de forma recursiva, uno no desea recuperar cargas de datos innecesarios. Desea que Wget siga solo enlaces específicos. Esta opción activa la expansión del host, que permite que la ejecución recursiva de Wget visite cualquier host al que haga referencia un enlace. Por ejemplo, imágenes servidas desde un host diferente.
- -p (–página-requisitos) : esta opción descarga todos los archivos necesarios para mostrar una página HTML. Incluye imágenes en línea, audio y hojas de estilo referenciadas.
- -k (–convertir enlaces) : Convierte los enlaces en el documento para que sean adecuados para verlos sin conexión. Incluye imágenes incrustadas, enlaces a hojas de estilo, hipervínculos a contenido que no es HTML y más.
- -K (–backup-convert) : al convertir un archivo, esta opción realiza una copia de seguridad de la versión original con un sufijo .orig .
- -i (–input-file) : lee las URL de una ruta a su archivo local o externo.
Poner los comandos en uso
Para demostrar estos comandos en la práctica, considere un manual del sitio web llamado Writing Workflows. Este manual consta de una tabla de contenido con un enlace a capítulos individuales. El objetivo final es crear un archivo PDF separado de esas secciones.
Paso 1 : Abra la Terminal y cree una nueva carpeta, como se discutió anteriormente.
Paso 2 : Use la extensión Link Klipper para guardar sus enlaces como un archivo de texto. Guarde su archivo en la carpeta Descargas .
Paso 3 : Mientras estás en la carpeta Wgetdown, escribe
wget -E -H -k -K -p -i /Users/rahulsaigal/Downloads/links.txt
Paso 4 : presiona Enter. Espera a que se complete el proceso.
Paso 5 : navega a la carpeta Wgetdown. Verá la carpeta del dominio primario procesadoword.net con todos los elementos de la página web y el capítulo1.html.
Convertir HTML a PDF
La conversión de una página web a PDF parece simple. Pero hacer que se vean como la página web original es una tarea difícil. Producir un resultado deseable depende de:
- Fuentes del sistema disponibles.
- La integridad del marcado HTML.
- Funciones necesarias que admiten tablas o imágenes flotantes.
- Opcionalmente tabla de contenidos.
Windows 10
PrinceXML es una aplicación para convertir rápidamente archivos HTML a PDF. Le permite escribir, formatear e imprimir contenido HTML con diseño configurable y soporte de estándares web. Viene con muchas fuentes útiles y también le permite personalizar la salida PDF. La aplicación es gratuita para uso no comercial.
Mac OS
En su Mac, puede crear un servicio Automator para convertir un lote de archivos HTML en archivos PDF. Abra Automator y cree un documento de Acción rápida . Configure la opción de servicio para recibir archivos o carpetas del Finder. Luego arrastre en Ejecutar script de shell y configure la opción de entrada Pasar como argumentos . Luego, pegue este script en el cuerpo
for theFileToProcess in " " do cupsfilter "$theFileToProcess" > "${theFileToProcess%.*}.pdf" done
Guarde el archivo como HTML2PDF.
Ahora seleccione todos los archivos HTML en Finder. Haga clic con el botón derecho y elija Servicios> HTML2PDF . Espere unos momentos para convertir todos sus archivos.
Formas de convertir una sola página web en PDF
A primera vista, los pasos necesarios para convertir varias páginas web en PDF parecen complicados. Pero una vez que comprenda los pasos y el proceso, ahorrará tiempo a largo plazo. No tiene que gastar dinero en suscripciones web o costosos convertidores de PDF.
Si está buscando formas de convertir una sola página web en PDF, lea este artículo sobre cómo convertir páginas web en PDF 3 formas fáciles de convertir páginas web en archivos PDF 3 formas fáciles de convertir páginas web en archivos PDF Puede convertir una página web en PDF y Léelo sin conexión. Estas son las herramientas más fáciles que hacen el trabajo en cualquier dispositivo. Lee mas .
Explore más sobre: PDF, Wget.