Cómo crear tu propia aplicación privada de auto-hospedaje Read-It-Later
Anuncio
Internet es un vasto tesoro de conocimiento. Pero es fugaz y no hay garantías de que el contenido que le guste estará allí en el futuro. Si no puede permitirse perder ese contenido, puede usar una herramienta de archivo web para almacenar una copia de la página web.
Muchas personas usan servicios de lectura posterior para guardar artículos web. Estas aplicaciones funcionan mejor con contenido basado en texto y no manejan diseños de páginas web o medios complicados correctamente. ¿Quieres un poco más de control?
Veamos cómo puede crear un clon de Instapaper o Pocket en su computadora sin perder ningún elemento de la página web.
Introduciendo ArchiveBox
ArchiveBox es una solución de código abierto que puede ayudarlo a alojar su propia alternativa a un servicio de archivo como Wayback Machine. No renuncia a su privacidad ni permanece encerrado en un servicio que no puede controlar.
Toma la lista de URL que desea archivar y crea un clon HTML local y navegable del contenido en múltiples formatos. Incluye copias locales en HTML, una captura de pantalla de la página, un archivo PDF y WARC (Web ARChive).
Estas copias permanecen con usted incluso si la página web original desaparece en el futuro.
ArchiveBox está escrito en Python 3. También utiliza dependencias como Wget, Headless Chrome, Youtube-dl y otras herramientas de Unix para guardar la página web. No necesita un servidor de fondo que se ejecute constantemente. Simplemente ejecútelo cada vez que quiera importar nuevos enlaces y actualizar la salida estática.
Una vez que se completa el archivo, puede abrir la salida generada / index.html en su navegador para ver el archivo.
Ventajas de ArchiveBox
- Archiva los enlaces en varios formatos de archivo que funcionan como copias de seguridad.
- Intenta retener la página web original utilizando métodos sofisticados de captura.
- Tiene la capacidad de extraer automáticamente el contenido y guardarlos en una sola carpeta.
- También proporciona una interfaz simple de línea de comandos para manejar múltiples enlaces, fuentes y marcadores. Debe configurarlo una vez y ejecutarlo en un horario para archivar los enlaces más nuevos.
Desventajas de ArchiveBox
- ArchiveBox extrae todos los activos de la página web. Consume un espacio considerable en el disco y consume mucha CPU.
- La aplicación requiere tres o más dependencias más allá de Python 3.5. Se necesita prueba y error para que estos componentes funcionen juntos.
- La aplicación no es completamente compatible con el sistema operativo Windows. Debe instalar Docker o habilitar el Subsistema de Windows para Linux (WSL) Cómo ejecutar un escritorio de Linux con el subsistema de Windows para Linux Cómo ejecutar un escritorio de Linux con el subsistema de Windows para Linux ¿Desea ejecutar Linux en su PC con Windows? Aquí se explica cómo ejecutar un escritorio de Linux dentro de Windows utilizando el Subsistema de Windows para Linux. Lee mas . Incluso entonces, algunas características pueden o no funcionar.
Sistemas Operativos Soportados
ArchiveBox admite oficialmente los siguientes sistemas operativos:
- macOS: 10.12 Sierra con Homebrew.
- Linux: Ubuntu, Debian (con APT). La aplicación puede (o no) funcionar en distribuciones como Fedora, CentOS, SUSE, Arch y más.
- BSD: FreeBSD, OpenBSD, NetBSD (con paquete).
Dependencias
ArchiveBox es una herramienta flexible de archivo web. Debe instalar las siguientes dependencias y cumplir con los requisitos mínimos.
- Python 3. No use el Python 2.0 predeterminado que viene con macOS.
- Wget 1.16
- Chromium 59. Si ya usa Google Chrome, no instale Chromium.
- Youtube-dl (Opcional): los recursos de medios necesitan mucho espacio de almacenamiento. Piensa detenidamente antes de archivar tus marcadores.
Configurar ArchiveBox
Hay dos formas de configurar ArchiveBox: Automático y Manual .
En el método automático, un script auxiliar instalará la aplicación y sus dependencias. Pero no podrá solucionar el problema si surge algún error. Es mejor instalar la aplicación manualmente.
Para fines de demostración, usaremos macOS 10.14.6.
Instalar las dependencias
La mejor manera de instalar dependencias es a través de un administrador de paquetes llamado Homebrew. Para comprender sus conceptos básicos, consulte este artículo sobre cómo instalar aplicaciones de Mac con Homebrew.
Abra la Terminal y escriba
brew install python3 git wget curl youtube-dl
brew cask install chromium
(Omita esto si ya tiene Google Chrome / Chromium instalado en las aplicaciones)
Verifique el número de versión de todas las dependencias
Para verificar el número de versión de todas las dependencias, escriba
dependency app --version
(Reemplace la aplicación de dependencia con python3, wget, youtube-dl y más)
Descargue su archivo de exportación de marcadores
Todos los servicios y navegadores de lectura posterior pueden exportar sus marcadores como un archivo HTML. Siga las instrucciones en este artículo sobre cómo exportar marcadores desde su navegador Cómo migrar marcadores entre Chrome, Firefox y / o Edge Cómo migrar marcadores entre Chrome, Firefox y / o Edge Desea transferir sus marcadores a un nuevo navegador o respaldarlos para su custodia? Aquí se explica cómo hacerlo en Chrome, Firefox y Edge. Lee mas . También puede guardar un solo enlace o la lista de URL en un archivo de texto.
Instalar ArchiveBox
Clona el repositorio de GitHub. Abra la Terminal y escriba
git clone https://github.com/pirate/ArchiveBox
Entonces,
cd ArchiveBox/
Cuando clones este repositorio, el instalador creará una carpeta ArchiveBox en tu directorio de Inicio. Esta carpeta contiene todos los archivos principales de aplicación y configuración.
Agregue su URL al archivo
Si desea archivar un solo enlace, escriba
echo 'https://example.com'| ./archive
Navegue a su carpeta ArchiveBox para ver la carpeta de salida recién creada. Aquí verá un archivo index.html.
Agregar múltiples enlaces al archivo
Cuando desee guardar varios enlaces (docenas o más), es mejor agregar sus enlaces a un archivo de texto. La aplicación analizará las URL dentro del archivo y las archivará. Abra la Terminal y escriba
./archive [Path to Your File.txt]
Si su archivo se encuentra en la carpeta Descargas, su ruta se verá así
./archive /Users/(Home directory name)/Downloads/links.txt
Espere unos minutos / horas para completar el proceso. Para acceder a su archivo, abra la salida / index.html en su navegador. Puede ordenar por columna, buscar el título utilizando el cuadro en la sección superior derecha y ver el número total de enlaces en la parte inferior.
Haga clic en el favicon debajo de la columna Archivos para visitar la página de detalles. Encontrarás enlaces a formatos de archivo individuales como se ve en la captura de pantalla. El mismo enlace también se carga en archive.org.
Del mismo modo, exporte sus enlaces de Instapaper o Pocket como un archivo HTML. Luego, escriba
./archive ~/Downloads/instapaper-export.html
También puede importar una lista de enlaces desde la URL del feed. Pero recuerde que puede encontrar demasiadas fallas o tiempos de espera de sesión. Si hay miles de URL, es mejor dividirlas en archivos más pequeños para aumentar la tasa de éxito.
Configurar ArchiveBox
La configuración predeterminada funciona en la mayoría de los casos, pero hay ciertos parámetros importantes que puede ajustar para obtener más funciones. El archivo de configuración vive en
~/ArchiveBox/etc/ArchiveBox.conf.default
Nota: No modifique este archivo, ya que se borrarán cada vez que actualice la aplicación. Para crear un archivo de configuración persistente, escriba
cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf
El comando cp creará una copia duplicada del archivo de configuración en su directorio de inicio. Por defecto, el archivo no está visible en su directorio. Para mostrar, presione Cmd + Shift + Period . Abra el archivo de configuración en TextEdit.
Parámetros
ArchiveBox le ofrece muchas opciones. Aquí hay algunos importantes;
- ONLY_NEW : establezca esto en True para descargar el archivo de los enlaces recién agregados. Resulta útil si marca regularmente enlaces.
- TIEMPO DE ESPERA : Los valores posibles son 60 o 120 segundos. Si ve errores frecuentes de tiempo de espera, aumente a 120 segundos.
- URL_BLACKLIST : puede usar la expresión regex para excluir ciertos dominios, extensiones o patrones de URL del archivo.
- FETCH_MEDIA : Obtenga todos los archivos de audio y video usando youtube-dl. Establezca esto en True solo cuando tenga suficiente almacenamiento.
- WGET_USER_AGENT : Úselo para cambiar el agente de usuario durante el archivado. Si está bloqueado por ciertos servidores, esta opción es útil.
Para obtener más información sobre los detalles de configuración, visite la Configuración de ArchiveBox para obtener más información.
Publicando su archivo
El archivo producido por ArchiveBox es compatible con cualquier proveedor que pueda alojar HTML estático. Por ejemplo, páginas de GitHub.
También puede servirlo desde un servidor doméstico o VPS cargando directamente la carpeta de salida en su directorio web.
Asegúrese de no ejecutar ningún contenido como CGI o PHP, solo desea alojar archivos HTML estáticos.
Alojar su archivo tiene ventajas y desventajas. Cuando descargue enlaces de sitios aleatorios, debe comprender los peligros de alojar archivos CSS y JS maliciosos en su dominio compartido. También es posible que desee incluir en la lista negra sus archivos en el archivo robots.txt para mantener la privacidad.
Descargar sitios web completos sin conexión
El archivo web ha atraído la atención en los últimos años. Registran todo el contenido de una página web, incluido HTML de origen, imágenes incrustadas, hojas de estilo y código JavaScript. ArchiveBox encaja perfectamente en la amplia categoría de herramientas y servicios de archivo web.
Si está frustrado con Instapaper o Pocket, ArchiveBox es una excelente alternativa. Además de los artículos web, es posible que desee archivar sitios web completos para acceder a ellos sin conexión o para preservar su conocimiento. Si esto le interesa, lea este artículo sobre cómo descargar cualquier sitio web para leer sin conexión Cómo descargar un sitio web completo para lectura sin conexión Cómo descargar un sitio web completo para lectura sin conexión A continuación, le mostramos cómo puede descargar sitios web completos para lectura sin conexión para que tenga acceso incluso cuando no tienes Wi-Fi o 4G. Lee mas .
Explore más sobre: Instapaper, Marcadores en línea, Código abierto, Pocket, The Internet Archive.