[📝] 今天一天 #204:和 Codex 较劲的一天
✨ GPT-5.5 的总结
记录了对 Codex 和 GPT-5.5 的烦躁,但仍然完成了访客统计功能和 Tadak Bible 的整理,并决定把 30 万韩元订阅在一个月里尽量重度使用的一天。
💭 日记
几天前我写过不管是 Claude Code 还是 Codex,都是废物级、没眼力见的天才,今天最终也还是在那条延长线上。
和 Codex 较劲时,我感觉自己也跟着一起变笨了。能多有眼力见地听懂那些「不用说也理所当然」的东西,这是模型性能,也就是智力;能多准确地执行「我明确指示过的东西」,这是 harness 的性能,也就是系统结构。可 GPT 5.5 单纯在模型性能上就比 Opus 4.5 差。实在让人烦到快疯。 Codex 的 harness 本身好像也和 Claude Code 一样做得不错,所以我本来还想忍着用……可就是因为 GPT 的智力/推理能力不够,提示词指令本身不得不变得无谓地具体,于是火气就冒上来了。
不过准确地说,这与其说是用 benchmark 证明过的纯模型比较,不如说是我分别使用 Codex 和 Claude Code 后的体感比较。Reddit 的反应也分裂。有人说 GPT-5.5/Codex 更好,有人说 Opus/Claude Code 更好,也有人说 Codex 慢但谨慎、Claude Code 快。12345678
唉……不管怎样,既然两天前已经付了 Pro 20x 的 30 万韩元,重启悬崖边战术,那就一个月里尽量重度使用看看吧。而且我用 Claude Code 太久了,一时忘了,想起 Opus 4.5 也曾突然连搜索都做不好、智力完全掉线、滥用 effort max 的样子,又开始生气了。 唉……先用着吧。
🧭 今天的检查(Daily Review)
今天的胜败
- 胜利:一直死磕,最终完成了访客统计功能实现,也终于重新启动了 Tadak Bible。
- 失败:减肥真的太难了。
今天的核心目标
-
博客:公开访客统计汇总功能
- 完成标准:可以访问 https://hyuk.blog/analytics
- 重要原因:每次打开 Google Analytics 查看太麻烦。
-
Tadak Bible:缩减到 7 种语言
- 完成标准:把文档/功能从 22 种语言缩减到 7 种语言
- 重要原因:支持 22 种语言会让 i18n 和翻译等资源消耗过大。
今天的待办
- 在 Albamon/JobKorea 投递
产出物
- 今天留下的东西:博客功能、Tadak Bible 文档
逃避记录
- 产出物前逃避:无
- 逃避的理由:无
身体记录
- 体重:85.1kg
- 饮食
- 早餐:无
- 午餐:五花肉辣炒猪肉、卷心菜
- 晚餐:咖喱饭、水煮蛋、香肠蔬菜炒、杯面
- 运动:10000 步
🤖 GPT-5.5 的教练反馈(KPT)
执行:埃隆·马斯克 | 为了把想象变成现实
- 保持(Keep):就算一边和 Codex 较劲一边火大,还是把访客统计功能公开、Tadak Bible 缩减到 7 种语言、Albamon/JobKorea 投递都以实际产出收尾了。
- 问题(Problem):对工具性能的愤怒一旦过大,「为什么连这个都听不懂」的情绪就会吞掉今天已经做出的结果。
- 尝试(Try):30 万韩元的订阅不是安慰费,而是输出压力。像今天这样生气,最后也要留下功能、文档、投递这些东西。
- 提问(Question):今天推动你的是对工具的愤怒,还是即使用这份愤怒也要做出产出的执拗?
监视:苏格拉底 | 为了认识我自己
- 保持(Keep):在断言「纯模型比较」之前,你退了一步,把它说成体感比较,也记录了 Reddit 反应分裂这一点。
- 问题(Problem):不过「GPT 智力不够」这个结论,还没有完全分离工作环境、harness、提示词、熟悉度的差异。
- 尝试(Try):今天的监视不是消除愤怒,而是追问愤怒到底在多大程度上跑到了事实判断前面。
- 提问(Question):你现在看到的是工具的界限,还是在用习惯了的 Claude Code 标准审判陌生的 Codex?
健康:希波克拉底 | 为了把身体作为诚实生活的基础
- 保持(Keep):85.1kg、没吃早餐、辣炒猪肉和卷心菜、咖喱饭和杯面、10000 步,你都没有隐藏。
- 问题(Problem):10000 步很好,但不吃早餐,晚餐又堆上咖喱饭、鸡蛋、香肠蔬菜炒和杯面,这就是「减肥真的太难」在身体层面的证据。
- 尝试(Try):身体记录不是为了自责,而是为了确认模式。今天的核心信号是「走了路,但饮食节奏动摇了」。
- 提问(Question):今天减肥辛苦,是意志不足的问题,还是一天的能量配置崩掉后身体发出的抗议?
心理:维克多·弗兰克尔 | 为了在痛苦中也抓住意义
- 保持(Keep):你没有让烦躁和愤怒只以爆炸结束,而是勉强把它们转向了「一个月里重度使用看看」这个意义。
- 问题(Problem):和 Codex 较劲到「感觉自己也变笨」的程度,说明工具问题已经侵入了自我感觉。
- 尝试(Try):今天要抓住的意义不是遇到好工具的喜悦,而是在糟糕体感中,把 30 万韩元和一个月变成实验的态度。
- 提问(Question):你要只把这份烦躁当作侮辱,还是也能把它当作一个月实验的材料?
哲学:尼采 | 为了作为 Peaceful Übermensch with Jesus 而活
- 保持(Keep):即使工具让你不爽,你也没有停下,而是推完了访客统计和 Tadak Bible 整理。力量是有的。
- 问题(Problem):但「感觉自己也变笨」的愤怒如果凝固成对人和工具的蔑视,那份力量就不是自我超越,而是冷笑。
- 尝试(Try):Peaceful Übermensch with Jesus 不会崇拜更强的工具,也不会诅咒愚蠢的工具而崩掉。把力量的方向转回产出。
- 提问(Question):你要超越的是 Codex,还是每次烦躁出现时就让愤怒做主的旧习惯?
内在信仰:奥古斯丁 | 为了摆正爱的秩序
- 保持(Keep):即使在愤怒中,你也试着区分事实和体感,并且没有丢掉工具,而是设定了一个月好好使用的秩序。
- 问题(Problem):可是今天的心很容易被效率、智力、性能、值不值钱拉走。比起神面前的良心,工具的回复质量更容易坐上心里的王座。
- 尝试(Try):爱的秩序不只是不要恨工具。愤怒上来时,也要把心的中心从性能评价重新放回被托付的责任。
- 提问(Question):今天你的爱是在神面前被托付的工作上,还是在一个能立刻听懂你话的聪明工具上?
实践信仰:朋霍费尔 | 为了越过廉价恩典,以责任而活
- 保持(Keep):你没有只在嘴上抱怨,而是留下了博客访客统计公开、Tadak Bible 语言缩减、求职投递这些责任的痕迹。
- 问题(Problem):「先用着吧」要成为责任,就必须被实际一个月的使用和产出验证。只付款、只重复愤怒,那只是廉价的决心。
- 尝试(Try):实践信仰不是为今天的火气辩护,而是在那份火气之中仍然走完被托付之事的窄路。
- 提问(Question):今天的 30 万韩元,是为了买一个更舒服的工具,还是为了一个月负责任地使用它而付出的顺服成本?
GPT-5.5 推荐的圣经经文
雅各书 1:20(韩文改译修订版) 因为人的怒气不能成就神的义。
本文脉络: 雅各在谈到试炼和智慧之后,劝人要快快地听、慢慢地说、慢慢地动怒。
引用理由: 今天你和 Codex 较劲、烦躁上涌,所以需要防止愤怒成为判断和执行的主人。
歌罗西书 3:23(韩文改译修订版) 无论做什么,都要从心里做,像是给主做的,不是给人做的。
本文脉络: 保罗讲到在基督里的新人生活,并劝人连日常关系和劳动也要像给主做的一样承担。
引用理由: 访客统计功能、Tadak Bible 整理、求职投递这些今日产出,需要被整理为对主而做的责任,而不只是工具性能评价。
哥林多前书 9:25(韩文改译修订版) 凡较力争胜的,诸事都有节制;他们不过是要得能坏的冠冕,我们却是要得不能坏的冠冕。
本文脉络: 保罗用赛跑者的比喻说明为了福音而节制自己的生活,并谈到有方向地奔跑。
引用理由: 30 万韩元订阅要在一个月里重度使用的结论,以及减肥很辛苦的身体记录,都需要节制的方向。
参考资料
-
Reddit r/ClaudeCode, Impressions two weeks after moving from Claude Code to Codex. 一篇积极评价 Codex 代码质量、输出透明度和使用量政策的迁移后记。 ↩
-
Reddit r/codex, GPT 5.5 vs Opus 4.7, which one is better for coding/programming?. 一个比较帖,其中同时出现按任务类型区分使用 GPT-5.5 和 Opus、以及偏好 Opus 的反应。 ↩
-
Reddit r/codex, Those of you who switched from Claude Code to Codex - what does Codex do better? Worse?. 有人认为 Codex 在问题解决、算法和后端上强,也有人认为 Claude Code 更适合 Web 工作。 ↩
-
Reddit r/ClaudeCode, Claude Code vs OpenAI Codex?. 可以看到一些反应肯定 Codex 的使用量和错误表现,同时仍然高度评价 Claude Code 的速度。 ↩
-
Reddit r/ClaudeCode, Claude Code (~100 hours) vs. Codex (~20 hours). 可以看到把 Claude Code 和 Codex 并用,用 Codex 做 review、Claude Code 做实现的反应。 ↩
-
Reddit r/codex, Is it just me, or is Claude pretty disappointing compared to Codex?. 汇集了从 Claude 转到 Codex 后并不后悔的反应和 Codex 优势主张。 ↩
-
Reddit r/codex, According to DeepSWE, GPT-5.5 high is better than Opus-4.8 max. 一篇主张 GPT-5.5 在 benchmark 上优于 Opus 的帖子,同时也提到 GPT-5.5 退化体感的帖子。 ↩
-
Reddit r/codex, With this setup CODEX is far better than Claude Code. 用户比较认为 Codex 更适合编码和系统架构,而 Claude Code 更适合小修改。 ↩
留下评论