[🛠] 把 Naver Blog 的 PDF 备份搬到 GitHub Pages 的记录

2026.06.05 (五)
2026.06.06 (六) 更新

✨ GPT-5.5 摘要　

从 18 份 Naver Blog PDF 备份中提取 173 篇文章和 1521 张图片，并重新移植进既有 GitHub Pages 博客结构的记录。

我开始想把之前堆在 Naver Blog 上的文章，重新带回这个 GitHub Pages 博客。

准确地说，这不只是想把备份文件找个地方存起来而已。那些文章已经写过了。它们有日期，有图片，有分类，也有那个时期的想法。只是这些记录被单独放在了 Naver Blog 这间别的房子里。

到最后，我还是想把这个博客重新立成自己记录的中心。GitHub Pages 博客很简单，但它能让我按照自己想要的结构把记录慢慢堆起来。

不过这一次，问题不是写一篇新文章。

我要拿到 18 份 Naver Blog PDF 备份，然后把里面的文章和图片重新搬进既有的 Jekyll 博客结构里。

先定条件

一开始目标很简单。

我要把 Naver Blog 的备份带过来，但希望它们在这个博客里读起来像原本就属于这里的文章。

于是我定了几个条件。

不遗漏地提取 18 份 PDF 里的文章。
保留文章日期和原文链接。
图片按照既有博客惯例放到 assets/images/YYYY-MM/YYYY-MM-DD/ 下面。
今天一天 系列编号要接上既有文章。
餐厅、旅行、AI、开发之类的文章不要混进 今天一天 的编号里。
不要硬塞进既有分类，必要时就新建分类。
不要把 PDF 里断裂的句子原样搬进来。
最终结果必须是可以构建的 Jekyll 文章。

写成文字看起来很普通。可真的做起来，它并不是单纯复制文件。

这是把记录从另一个系统迁移到这个系统里的工作。

不能只相信 PDF 文本

一开始我以为，只要从 PDF 里抽出文本和图片就结束了。

实际上的确抽出了文章。图片也抽出来了。但问题出在正文。PDF 里拿出来的句子，中间会莫名其妙地断开。

比如会变成这样。

想靠我一个人尽快控制那场巨大的风暴，这种过度的欲望本身，就是让我感到无力的最大原因

因为如此。

一句话被拆得像两个段落，词语也被切碎，阅读节奏全坏了。

如果就这样迁移，备份也许算是完成了，但文章本身会坏掉。那已经不像是给人读的文章，更像是从 PDF 里硬撕下来的痕迹。

所以我改了方向。

PDF 只作为文章列表和图片提取的起点，正文则重新读取 Naver 原文 HTML 来恢复。我顺着 Naver 编辑器里的段落、列表、引用流，再把正文重新做成 Markdown。

到了这一步，文章才终于重新像文章了。

图片也对齐既有博客方式

图片也很重要。

Naver 的文章里图片很多。尤其是旅行文章和餐厅文章，图片几乎就是正文的一部分。只搬文字的话，记录会变成半截。

最后带过来的图片一共有 1521 张。

图片路径按照既有博客的惯例来整理。

assets/images/2025-09/2025-09-09/naver-004-001.jpg

我用年月、日期和 Naver import 编号整理文件名。这样以后再看文件，也能追踪到它是哪一天、哪一次 import 的图片。

正文里则直接使用普通的 Markdown 图片语法。

![naver-004-001](/assets/images/2025-09/2025-09-09/naver-004-001.jpg)

对静态博客来说，这种简单很重要。构建结束后，它就只是文件。不需要依赖单独的图片服务器，也不需要靠外部链接撑着。

分类重新拆了一遍

最需要小心的是分类。

一开始我想，Naver 的文章是不是大致丢到 diary 下面就可以了。但如果那样做，以后找文章会变难，博客结构也会变得模糊。

所以我新建了一些分类。

diary life
diary thought
diary relationship
diary restaurant
diary travel

既有的 diary ai、diary dev、diary religion 也一起使用。读书和 mindset 文章放到 reading mindset，应用介绍放到 tip app，博客搭建记录则放到 devlog github-pages-blog 下级分类。

新建分类并不是移动一个文件就结束。

需要分类页面。需要侧边栏导航。归档里显示的分类标签和链接也要对上。标题前面的图标也要符合既有博客惯例。

餐厅文章整理成 [🍽️]，AI 文章整理成 [🤖]，开发文章整理成 [🧑‍💻]，旅行文章整理成 [🧳]。

这些看起来都很小，但如果这里散掉了，导入来的文章就会一直像从外部搬来的异物。

`今天一天` 编号单独守住

最容易混乱的是 今天一天 编号。

Naver 上的认证类文章，本质上就是 Daily Review。所以它们必须接上既有博客的 今天一天 系列。

反过来，餐厅、旅行、AI、读书文章，不管日期多接近，都不是 今天一天 系列。如果连这些文章也混进编号里，系列本身就会坏掉。

最终结果对齐成这样。

今天一天 #1 ~ #200

编号从 1 一直到 200，中间没有遗漏，也没有重复。我也确认了非 Daily Review 文章里不会出现 今天一天 # 编号。

这不是单纯整理数字。

这是在守住一个系列的身份。

验证占了工作的一半

这种迁移最可怕的是，表面看起来像是没问题，但某个地方一个接一个地偏掉。

图片文件可能不存在，只剩 Markdown 引用。分类 front matter 和实际文件夹可能对不上。标题图标可能和既有惯例不一致。PDF 里破碎的 ? 图标也可能原封不动地留在正文里。

所以我另外跑了验证。

大致检查的是这些。

导入文章：173 篇
图片引用：1521 个
缺失图片：0 个
可见的单独 ? 残留：0 个
今天一天编号：#1 ~ #200
非 Daily Review 编号混入：0 个
分类文件夹不一致：0 个

最后也跑了 Jekyll 构建。

bundle exec jekyll build

静态博客必须等构建通过，才算真的能放心。因为只要一个 Markdown 文件里的 Liquid 语法坏掉，整个网站都可能停下来。

结果

最终，我从 18 份 Naver Blog PDF 备份中，把 173 篇文章和 1521 张图片搬进了这个博客。

但比数字更重要的是另一件事。

这项工作不是单纯备份。它是在把分散的记录重新恢复到一个系统里。

PDF、Naver HTML、Jekyll front matter、分类页面、侧边栏导航、图片路径、系列编号，全都必须对上。只要错一个，记录的上下文就会断掉。

别人看起来，也许只是把文章搬了一下。但对我来说，这是重新整理记录系统的工作。

我不是单纯带回了很多文章。而是重新决定了该怎么结构化自己积累下来的记录，怎么恢复损坏的数据，又怎么把它们安放进既有系统的惯例里。

写记录很重要，但把记录重新抓住、不让它丢掉也很重要。

这次工作更接近后者。

Twitter Facebook LinkedIn

Hyuk Min

[🛠] 把 Naver Blog 的 PDF 备份搬到 GitHub Pages 的记录

✨ GPT-5.5 摘要

先定条件

不能只相信 PDF 文本

图片也对齐既有博客方式

分类重新拆了一遍

`今天一天` 编号单独守住

验证占了工作的一半

结果

分享

留下评论

猜您还喜欢

[📝] 今天 #244：把一切交给 AI 后，开发变得太有趣了

[🤖] 懂得积极运用 AI，能做的事就会变得无穷无尽

[🛠] 按 workstream 将公司实务文章拆成三级分类

[🛠] 不破坏旧 Daily Review 的身体记录版本路由

Hyuk Min

Hyuk Min

访问统计

✨ GPT-5.5 摘要

先定条件

不能只相信 PDF 文本

图片也对齐既有博客方式

分类重新拆了一遍

今天一天 编号单独守住

验证占了工作的一半

结果

分享

留下评论

猜您还喜欢

[📝] 今天 #244：把一切交给 AI 后，开发变得太有趣了

[🤖] 懂得积极运用 AI，能做的事就会变得无穷无尽

[🛠] 按 workstream 将公司实务文章拆成三级分类

[🛠] 不破坏旧 Daily Review 的身体记录版本路由

✨ GPT-5.5 摘要　

`今天一天` 编号单独守住