[🛠] De copias PDF de Naver Blog a GitHub Pages
✨ Resumen de GPT-5.5
Un registro de cómo extraje 173 entradas y 1521 imágenes de 18 copias PDF de Naver Blog, y las injerté de nuevo en la estructura existente del blog en GitHub Pages.
Me dieron ganas de volver a traer al blog de GitHub Pages los textos que había acumulado en Naver Blog.
Para ser más exacto, no se trataba simplemente de guardar unos archivos de respaldo en algún sitio. Ya había textos escritos. Tenían fechas, imágenes, categorías y también las ideas que tenía en aquella época. Pero esos registros estaban aparte, en otra casa llamada Naver Blog.
Al final, quería volver a levantar este blog como el centro de mis registros. Un blog de GitHub Pages es simple, pero me permite acumular lo que escribo con la estructura que yo quiero.
Solo que esta vez no era cuestión de escribir una entrada nueva.
Tenía que tomar 18 copias PDF de Naver Blog y trasladar las entradas y las imágenes que contenían de vuelta a la estructura existente del blog en Jekyll.
Primero fijé las condiciones
Desde el principio, el objetivo era simple.
Quería importar la copia de Naver Blog, pero hacer que dentro de este blog se leyera como si esas entradas hubieran estado aquí desde el principio.
Fijé algunas condiciones.
- Extraer sin omisiones todas las entradas de los 18 PDF.
- Conservar la fecha y el enlace original de cada entrada.
- Colocar las imágenes bajo
assets/images/YYYY-MM/YYYY-MM-DD/, según la convención existente del blog. - Hacer que la numeración de la serie
Hoy fuecontinuara desde las entradas existentes. - No mezclar entradas de restaurantes, viajes, IA, desarrollo y temas parecidos dentro de la numeración de
Hoy fue. - No forzar las entradas dentro de categorías existentes; crear categorías nuevas si hacía falta.
- No traer tal cual las frases rotas del PDF.
- El resultado debía ser una entrada de Jekyll que pudiera compilar.
Escrito así, suena normal. Pero al hacerlo de verdad, no fue una simple copia de archivos.
Fue una mudanza de registros de un sistema a otro.
No podía confiar solo en el texto del PDF
Al principio pensé que bastaría con extraer el texto y las imágenes de los PDF.
Las entradas sí se extrajeron. Las imágenes también. Pero el problema estaba en el cuerpo del texto. Las frases traídas desde el PDF se cortaban en lugares extraños.
Por ejemplo, aparecían así.
Intentar controlar yo solo esa tormenta enorme lo antes posible, esa ambición excesiva en sí misma era la mayor causa que me dejaba sin fuerzas
por eso.
Una sola frase quedaba partida como si fueran párrafos, las palabras se rompían y el ritmo de lectura se arruinaba.
Si las trasladaba en ese estado, quizá habría una copia de seguridad, pero las entradas quedarían dañadas. No serían textos para que una persona los leyera, sino algo más cercano a rastros arrancados de un PDF.
Así que cambié de dirección.
Usé los PDF como punto de partida para obtener la lista de entradas y extraer imágenes, pero reconstruí el cuerpo volviendo a leer el HTML original de Naver. Seguí el flujo de párrafos, listas y citas del editor de Naver, y volví a convertir el cuerpo en Markdown.
Solo entonces los textos volvieron a parecer textos.
Ajusté las imágenes al estilo existente del blog
Las imágenes también eran importantes.
Las entradas de Naver tenían muchas imágenes. En especial, en las entradas de viajes o restaurantes, las imágenes eran casi el cuerpo mismo. Si movía solo el texto, el registro quedaba a medias.
Al final importé 1521 imágenes.
Las rutas de imagen siguieron la convención existente del blog.
assets/images/2025-09/2025-09-09/naver-004-001.jpg
Organicé los nombres de archivo con año-mes, fecha y número de importación de Naver. Así, incluso más adelante, al mirar un archivo se puede rastrear de qué fecha y de qué importación viene esa imagen.
En el cuerpo usé la sintaxis normal de imágenes en Markdown.

En un blog estático, esta simplicidad importa. Cuando termina la compilación, son simplemente archivos. No hace falta depender de un servidor de imágenes aparte ni de enlaces externos.
Volví a dividir las categorías
La parte con la que tuve más cuidado fueron las categorías.
Al principio pensé que quizá bastaría con meter las entradas de Naver más o menos bajo diary. Pero si hacía eso, después sería difícil encontrar textos, y la estructura del blog se volvería borrosa.
Así que creé categorías nuevas.
diary life
diary thought
diary relationship
diary restaurant
diary travel
También usé categorías que ya existían, como diary ai, diary dev y diary religion. Las entradas de lectura y mentalidad fueron a reading mindset, las presentaciones de apps a tip app, y los registros de construcción del blog a la subcategoría devlog github-pages-blog.
Crear categorías no termina con mover un archivo.
Hacen falta páginas de categoría. También navegación en la barra lateral. Las etiquetas de categoría y los enlaces que se ven en el archivo tienen que coincidir. Incluso el icono delante del título debe encajar con la convención existente del blog.
Organicé las entradas de restaurantes con [🍽️], las de IA con [🤖], las de desarrollo con [🧑💻], las de viajes con [🧳], y así sucesivamente.
Parecen detalles pequeños, pero si se desordenan, las entradas importadas siguen viéndose como cuerpos extraños llegados desde fuera.
Mantuve aparte la numeración de Hoy fue
Lo más fácil de confundir era la numeración de Hoy fue.
Las entradas de Today's Verification que había en Naver eran, en la práctica, Daily Reviews. Por eso tenían que continuar con la serie Hoy fue del blog existente.
En cambio, las entradas de restaurantes, viajes, IA o lectura no forman parte de Hoy fue, aunque las fechas sean parecidas. Si esas entradas se mezclan en la numeración, la serie misma se rompe.
El resultado final quedó alineado así.
Hoy fue #1 ~ #200
La numeración continuó del 1 al 200, sin omisiones ni duplicados. También comprobé que las entradas que no eran Daily Review no tuvieran números de Hoy fue #.
Esto no fue una simple ordenación de números.
Fue una tarea para proteger la identidad de la serie.
La verificación fue la mitad del trabajo
Lo que da miedo en una migración de este tipo es que por fuera parezca convincente, pero que algo esté ligeramente mal en alguna parte.
Puede faltar un archivo de imagen mientras queda la referencia en Markdown. El front matter de categoría puede no coincidir con la carpeta real. El icono del título puede alejarse de la convención existente. Un icono ? roto desde el PDF puede quedarse tal cual en el cuerpo.
Por eso ejecuté verificaciones aparte.
Lo que revisé fue, más o menos, esto.
Entradas importadas: 173
Referencias de imagen: 1521
Imágenes faltantes: 0
Signos ? sueltos visibles restantes: 0
Numeración de Hoy fue: #1 ~ #200
Numeración mezclada en entradas no Daily Review: 0
Desajustes entre carpeta y categoría: 0
Al final también ejecuté una compilación de Jekyll.
bundle exec jekyll build
En un blog estático, solo cuando la compilación pasa se puede estar realmente tranquilo. Si se rompe la sintaxis Liquid de un solo archivo Markdown, todo el sitio puede detenerse.
Resultado
Como resultado, moví a este blog 173 entradas y 1521 imágenes de 18 copias PDF de Naver Blog.
Pero lo más importante no fueron los números.
Este trabajo no fue una simple copia de seguridad. Fue restaurar registros dispersos dentro de un solo sistema.
PDF, HTML de Naver, front matter de Jekyll, páginas de categoría, navegación lateral, rutas de imagen y numeración de series tenían que encajar todos. Si una sola cosa fallaba, se rompía el contexto del registro.
Para otros puede parecer simplemente que moví entradas. Pero para mí fue una tarea de reorganizar mi sistema de registros.
No solo traje muchas entradas. Volví a decidir cómo estructurar los registros que había acumulado, cómo recuperar datos dañados y cómo asentarlos dentro de las convenciones del sistema existente.
Escribir registros es importante, pero también lo es volver a sujetarlos para no perderlos.
Este trabajo estuvo más cerca de eso.
Deja un comentario