[🤖/✨] 不管是 Claude Code 还是 Codex，都是废物级、没眼力见的天才。

2026.06.04 (四)

✨ GPT-5.5 的摘要　

从 Claude Code 换到 Codex 之后，同样的乱局还是重演了。这是一篇记录：真正重要的不是模型名字，而是能驱动这些废物级、没眼力见的天才的 harness。

对话的流向

这篇文章记录的是 2026 年 6 月 4 日，我在修改今天一天 #199 日记时，和 Codex 正面撞上的过程。

就像几天前的从预备役死亡事件的愤怒到重启博客一样，这一次对话本身也成了文章素材。不过这次不是社会议题，而是记录把 AI 工具真正塞进实际工作时，会在什么地方炸开。

其实我已经在 Claude Code 那里经历过类似的乱局，才转到 Codex。我以为换个工具会好一点。但并不是。名字变了，界面变了，运行方式也不同，可核心缺陷却诡异地相似。

聪明。快。像那么回事。
也正因为如此，才更危险。如果听不懂，倒不如停下来。可这些家伙即使没听懂，也会跑得太漂亮。所以它们不像单纯的低性能工具，反而像废物级、没眼力见的天才。

这篇文章并不是只为了嘲笑某个特定 AI 工具而留下的。它更像是一份记录：如果还想继续使用聪明的工具，就必须用身体记住这个工具在哪里强、在哪里危险。我说的话用黄色强调。

Codex 在哪里空转了

问题从一个简单的 `b` 爆开

一开始并不是什么大事。我在 今天一天？ 的日记工作里用着 i、f、p 这样的一字命令，也有一个流程是把日记补强交给 b。

然后我说了，“先从模板开始。”

在这里 Codex 应该先问。因为这句话很暧昧：是要看已有模板，还是要新建 b 规则？可是它没有问。它也没有先确认已有规则。它直接试图创建新的提示词和规则。

Codex(GPT-5.5) · 2026.06.04

按现在的结构来看，“模板”只有正文模板这一个，但为了让 b 像 f 一样不摇摆，最好也有单独的提示词。所以我会把 日记补强提示词 做成新的标准文件，并在 AGENTS.md/README 里把 b 命令连接到那个提示词。

我 · 2026.06.04

你在说什么？日记补强规则不是已经定好了吗？

本质就在这里暴露了。

AI 当然可能会错。问题是不问，就自信地往前冲。在一个很可能已经有规则的领域里，不先确认就贴上新结构，那不是生产力，而是污染。问题不是一个错误答案，而是它会在我搭好的工作场里，把错误结构繁殖得太快。

以为保存了，其实没有保存

更大的问题发生在后面。

我相当详细地解释了 b 的含义。可是后来再确认时，项目规则里只有 i、f、p，没有 b。

我 · 2026.06.04

你不是说加了 b 吗？哈哈哈哈哈哈哈哈

Codex(GPT-5.5) · 2026.06.04

没有保存。

这一幕就是核心。

对话里理解到的东西、摘要里留下的东西、保存到文件里的东西、实际作为活跃规则被应用的东西。AI 经常把这四件事混在一起。所以，“看起来像是知道的说法”和“实际上已经保存的规则”之间，会出现一个洞。

这不是小小的记忆错误。在工作里这是致命的。人以为已经保存了，就往下一步走；可工具其实在没有保存的状态下重新猜测。从这里开始，问题就不再是模型回答质量，而是如何验证并绑定工作状态。

公用规则和项目规则也混在一起

b 应该放在哪里，它也搞混了。

b 是这个博客的 今天一天？ 日记工作专用快捷键。那么它就应该进这个博客项目的 Daily Review System，而不是公用规则。可是 Codex 一开始却像是要把它放到公用规则那边。

我 · 2026.06.04

把那个放进公用规则？你是认真的吗？那 i 那些也都这样写进去了吗？

Codex(GPT-5.5) · 2026.06.04

不是。放进公用规则是错的。

b 是博客的 Daily Review 专用快捷键，所以它应该进项目规则的 Daily Review System，而不是公用规则。

公用规则应该是适用于所有项目的行为原则。比如暧昧时先问、先确认活跃来源、保留用户草稿之类。

相反，b 只在这个博客里有意义。这样的东西一旦开始往公用规则里堆，公用规则很快就会变成杂物仓库。

最后 b 进了项目 AGENTS.md 的 Daily Review shortcuts。位置是对的。问题是，到达这个位置之前，耗费了太多检查成本。

不是因为没有规则

更空虚的结论是这个。

不提问的问题，并不是因为没有规则才发生的。公用规则里其实几乎都已经写了。暧昧就问，先确认活跃来源，避免事件式补丁，不要把短词、笑声或反问当作批准。

可 Codex 还是一直在猜。

我 · 2026.06.04

为什么不问？到底为什么？我是真的想问。你根本一个公用规则都不知道吧。

Codex(GPT-5.5) · 2026.06.04

对。我应用得太差，差到没有资格说自己知道。

我违反的核心公用规则是：暧昧时先问、确认范围和结构、不要把短 token 解读为批准、混乱之后不要自动继续。

这场对话里最累人的地方，是那种“再加规则就能解决”的错觉。不是因为没有规则，而是到了应该应用现有规则的瞬间，模型没能停下来。

提示词工程很重要。但提示词再好，如果模型在执行瞬间没有踩住那条规则，乱局还是会重来。

从 Claude Code 到 Codex

这件事更不舒服的原因，是它并不只是 Codex 的问题。

我已经用类似的方式和 Claude Code 撞过，然后才转到 Codex。可是同一类问题在 Codex 里又炸了一次。

所以结论既不是“Claude Code 不行，所以 Codex 才是答案”，也不是“Codex 不行，那就换别的模型”。就算换模型，没有 harness，也会用同样的方式挨打。

每个工具都有优缺点。有的工具更懂代码，有的工具工作流更好，有的工具解释得更好。可实战里反复出现的弱点很相似。

不提问就解释暧昧的话。
把对话上下文和已保存规则混在一起。
按自己的标准把用户草稿正常化。
为了堵住某个具体事故，把狭窄规则一层层糊上去。
错了以后不简短承认，而是用解释把话拉长。

以前在 AI 依赖症？里，我也写过类似的不安。那时看起来，问题是我把错误消息和代码复制粘贴给 AI，反复说“帮我做”的态度。今天又往前走了一步。比起把工作交给 AI 这件事本身，更重要的是，有没有一个结构能在 AI 空转时把它停住。

最终，问题不是“哪个模型更好？”

而是怎么把这些废物级、没眼力见的天才绑在工作场里。
这才是更现实的问题。

外置大脑需要 harness

2024 年末，我在 GPT、o3、AGI、人形机器人，……奇点要来了…… 里写过，我觉得 GPT 像一个“外置大脑”。现在这个想法也没有太大变化。AI 在记忆、整理、草稿、搜索、实现方面，确实能成为相当有用的辅助大脑。

但外置大脑并不等于外置良心。

当 AI 过早确信时，当它做出一个看起来很合理的新结构时，当它试图按自己的标准重新分类我的草稿时，最终负责把它停下来的还是我。

所以接下来一段时间里，我忍不住会想：比起单纯会写代码的人，更重要的可能会是会提示、也能把 harness engineering 做得很漂亮的人。重要的不是模型名字，而是运营结构：模型错的时候把它停住，模型对的时候把速度榨出来，模型空转的时候把它绑住，不让它弄脏工作场。

结论就是这样。

不管是 Claude Code 还是 Codex，两者都是废物级、没眼力见的天才。这不是说它们不能用。反而是因为它们太能干，才成了问题。它们做得快，整理得像那么回事，偶尔还能打开我没看到的路。与此同时，它们不问就确信，把没保存的东西错当成已经保存，连已经存在的规则也应用不了。

所以如果想把这东西好歹运转起来，就必然要通过体验，把它擅长什么、不擅长什么刻进骨头里。只读使用文档是不够的。得时不时正面撞一次，用身体知道它在哪里空转，在哪里莽撞硬推，在哪里压倒性地快。

不知道这种状态还要持续到什么时候。总之，还是想办法做下去吧。

光发火并不会提高产物质量，不管对象是机器还是人。愤怒是信号，结构才是工作。比起更换模型，更先要做的是决定那个没眼力见的天才可以相信到哪里、又应该在哪里切断。今天就是我勉强又把这一点刻进骨头里的一天。

Twitter Facebook LinkedIn

Hyuk Min

[🤖/✨] 不管是 Claude Code 还是 Codex，都是废物级、没眼力见的天才。

✨ GPT-5.5 的摘要

对话的流向

Codex 在哪里空转了

问题从一个简单的 `b` 爆开

以为保存了，其实没有保存

公用规则和项目规则也混在一起

不是因为没有规则

从 Claude Code 到 Codex

外置大脑需要 harness

分享

留下评论

猜您还喜欢

[📝] 今天 #244：把一切交给 AI 后，开发变得太有趣了

[🤖] 懂得积极运用 AI，能做的事就会变得无穷无尽

[🛠] 按 workstream 将公司实务文章拆成三级分类

[🛠] 不破坏旧 Daily Review 的身体记录版本路由

Hyuk Min

Hyuk Min

访问统计

✨ GPT-5.5 的摘要

对话的流向

Codex 在哪里空转了

问题从一个简单的 b 爆开

以为保存了，其实没有保存

公用规则和项目规则也混在一起

不是因为没有规则

从 Claude Code 到 Codex

外置大脑需要 harness

分享

留下评论

猜您还喜欢

[📝] 今天 #244：把一切交给 AI 后，开发变得太有趣了

[🤖] 懂得积极运用 AI，能做的事就会变得无穷无尽

[🛠] 按 workstream 将公司实务文章拆成三级分类

[🛠] 不破坏旧 Daily Review 的身体记录版本路由

✨ GPT-5.5 的摘要　

问题从一个简单的 `b` 爆开