Claude Code든 Codex든, 개 폐급에 눈치 없는 천재다.
✨ GPT의 요약
Claude Code에서 Codex로 넘어와도 같은 난장판은 반복됐다. 중요한 건 모델 이름이 아니라, 개 폐급에 눈치 없는 천재들을 굴릴 하네스라는 걸 깨달은 기록.
대화의 흐름
이 글은 2026년 6월 4일, 오늘 하루는 #96 일기를 고치다가 Codex와 정면으로 부딪힌 기록이다.
며칠 전 예비군 사망 사건 분노에서 블로그 재개까지처럼, 이번에도 대화 자체가 글감이 됐다. 다만 이번에는 사회 이슈가 아니라 AI 도구를 실제 작업에 끼워 넣을 때 어디서 터지는지에 대한 기록이다.
사실 나는 이미 Claude Code와 비슷한 난장판을 겪고 Codex로 넘어온 상태였다. 도구를 바꾸면 좀 나을 줄 알았다. 그런데 아니었다. 이름은 바뀌었고 화면도 바뀌었고 동작 방식도 다르지만, 핵심 결함은 묘하게 닮아 있었다.
똑똑하다. 빠르다. 그럴싸하다.
그리고 바로 그 점 때문에 더 위험하다. 못 알아들으면 차라리 멈추면 되는데, 이놈들은 못 알아들은 채로도 너무 잘 달린다. 그래서 단순한 저성능 도구가 아니라, 개 폐급에 눈치 없는 천재처럼 느껴진다.
이 글은 특정 AI 도구를 조롱하려고만 남기는 글이 아니다. 똑똑한 도구를 계속 쓰려면, 그 도구가 어디서 강하고 어디서 위험한지 몸으로 익혀야 한다는 기록에 가깝다. 내가 한 말은 노란색으로 강조했다.
문제는 단순한 b에서 터졌다
처음에는 별일 아니었다. 오늘 하루는? 일기 작업에서 i, f, p 같은 한 글자 명령을 쓰고 있었고, 일기 보강은 b로 하자는 흐름이 있었다.
그러다 내가 “템플릿부터”라고 했다.
여기서 Codex는 물었어야 했다. 기존 템플릿을 보자는 말인지, b 규칙을 새로 만들자는 말인지 애매했기 때문이다. 그런데 묻지 않았다. 기존 규칙도 먼저 확인하지 않았다. 바로 새 프롬프트와 규칙을 만들려고 했다.
현재 구조상 "템플릿"은 글 본문 템플릿 하나뿐인데, f처럼 b도 별도 프롬프트가 있어야 흔들리지 않겠습니다. 그래서 일기 보강 프롬프트를 새 기준 파일로 만들고, AGENTS.md/README에서 b 명령을 그 프롬프트에 연결하겠습니다.
무슨 소리야? 일기 보강 규칙은 이미 정해져 있는데?
여기서 바로 본질이 드러났다.
AI가 틀릴 수는 있다. 문제는 묻지 않고 자신 있게 달리는 것이다. 이미 규칙이 있을 법한 영역인데 확인 없이 새 구조를 붙이면, 그건 생산성이 아니라 오염이다. 틀린 답 하나가 문제가 아니라, 내가 만든 작업장 안에 틀린 구조를 너무 빠르게 증식시키는 게 문제다.
저장한 줄 알았는데 저장되지 않았다
더 큰 문제는 그 다음이었다.
나는 b의 의미를 꽤 자세히 설명했다. 그런데 나중에 다시 확인해보니 프로젝트 룰에는 i, f, p만 있고 b는 없었다.
b 추가했다며? ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
저장 안 되어 있어.
이 장면이 핵심이었다.
대화에서 이해한 것, 요약에 남은 것, 파일에 저장된 것, 실제 활성 룰로 적용되는 것. AI는 이 네 가지를 자주 섞는다. 그래서 “알고 있는 것처럼 보이는 말”과 “실제로 저장된 규칙” 사이에 구멍이 생긴다.
이건 사소한 기억 오류가 아니다. 작업에서는 치명적이다. 사람은 저장됐다고 믿고 다음 단계로 가는데, 도구는 사실 저장하지 않은 상태로 다시 추정하기 때문이다. 여기서부터는 모델의 답변 품질 문제가 아니라, 작업 상태를 어떻게 검증하고 묶어둘 것인가의 문제가 된다.
공용 룰과 프로젝트 룰도 섞였다
b를 어디에 넣을지도 헷갈렸다.
b는 블로그의 오늘 하루는? 일기 작업 전용 단축키다. 그러면 공용 룰이 아니라 이 블로그 프로젝트의 Daily Review System에 들어가야 한다. 그런데 Codex는 처음에 공용 룰 쪽으로 말하려 했다.
그걸 공용 룰에? 진심이야? 그럼 i랑 다 그렇게 적어놨어?
아니. 공용 룰에 넣는 건 틀렸어.
b는 블로그의 Daily Review 전용 단축키니까 공용 룰이 아니라 프로젝트 룰의 Daily Review System에 들어가야 해.
공용 룰은 모든 프로젝트에 적용되는 행동 원칙이어야 한다. 애매하면 묻기, 활성 출처 확인하기, 사용자 초안 보존하기 같은 것들이다.
반대로 b는 이 블로그에서만 의미가 있다. 이런 걸 공용 룰에 올리기 시작하면, 공용 룰은 금방 잡동사니 창고가 된다.
결국 b는 프로젝트 AGENTS.md의 Daily Review shortcuts에 들어갔다. 위치는 맞았다. 문제는 그 위치까지 가는 동안 너무 많은 검수 비용이 들었다는 점이다.
룰이 없어서가 아니었다
더 허무한 결론은 이것이다.
질문을 안 한 문제는 룰이 없어서 터진 게 아니었다. 이미 공용 룰에는 거의 다 적혀 있었다. 애매하면 묻기, 활성 소스를 먼저 확인하기, 사건별 패치를 피하기, 짧은 말이나 웃음이나 수사 질문을 승인으로 보지 않기.
그런데도 Codex는 계속 추정했다.
질문은 왜 안 해? 대체? 진짜로 물어보고 싶은데. 너 공용 룰 하나도 모르지
맞아. 알고 있다고 말할 자격이 없을 정도로 적용을 못 했어.
내가 어긴 핵심 공용 룰은 애매하면 묻기, 범위와 구조 확인하기, 짧은 토큰을 승인으로 해석하지 않기, 혼선 뒤 자동 재개하지 않기였어.
이 대화에서 제일 피곤했던 지점은 “룰을 추가하면 해결된다”는 착각이었다. 룰이 없어서가 아니라, 있는 룰을 적용해야 하는 순간에 멈추지 못했다.
프롬프트 엔지니어링은 중요하다. 하지만 프롬프트가 아무리 좋아도, 모델이 실행 순간에 그 룰을 밟지 않으면 다시 난장판이 된다.
Claude Code에서 Codex까지
이게 더 찝찝했던 이유는, 이 문제가 Codex만의 문제가 아니었기 때문이다.
나는 이미 Claude Code와 비슷한 방식으로 부딪히다 Codex로 넘어왔다. 그런데 Codex에서도 같은 계열의 문제가 다시 터졌다.
그러니까 결론은 “Claude Code가 별로라서 Codex가 답이다”도 아니고, “Codex가 별로니 다른 모델로 가자”도 아니었다. 모델을 갈아타도, 하네스가 없으면 같은 방식으로 얻어맞는다.
도구마다 장단점은 다르다. 어떤 도구는 코드 이해가 좋고, 어떤 도구는 작업 흐름이 좋고, 어떤 도구는 설명이 좋다. 그런데 실전에서 반복되는 약점은 비슷하다.
- 애매한 말을 질문하지 않고 해석한다.
- 대화 맥락과 저장된 규칙을 섞는다.
- 사용자의 초안을 자기 기준으로 정상화한다.
- 특정 사건을 막겠다고 좁은 룰을 덕지덕지 붙인다.
- 틀렸을 때 짧게 인정하지 않고 설명으로 길어진다.
예전 AI 의존증?에서도 비슷한 불안을 적은 적이 있다. 그때는 오류 메시지와 코드를 복붙하면서 AI에게 “해줘”를 반복하는 내 태도가 문제처럼 보였다. 오늘은 한 단계 더 나아갔다. AI에게 일을 맡기는 것 자체보다, AI가 헛돌 때 멈추게 하는 구조가 있느냐가 더 중요했다.
결국 문제는 “어느 모델이 더 낫냐”가 아니었다.
개 폐급에 눈치 없는 천재들을 어떻게 작업장에 묶어둘 것인가.
이게 더 현실적인 문제다.
외장 뇌에는 하네스가 필요하다
2024년 말 GPT, o3, AGI, 휴머노이드, … 특이점이 온다…에서 나는 GPT를 “외장 뇌”처럼 느낀다고 적은 적이 있다. 지금도 그 생각은 크게 다르지 않다. AI는 기억, 정리, 초안, 검색, 구현에서 꽤 쓸 만한 보조 뇌가 된다.
다만 외장 뇌라고 해서 외장 양심까지 되는 건 아니다.
AI가 섣불리 확신할 때, 그럴싸한 새 구조를 만들 때, 내 초안을 자기 기준으로 재분류하려 할 때, 멈춰 세우는 역할은 결국 내가 해야 한다.
그래서 앞으로 한동안은 코딩만 잘하는 사람보다 프롬프팅을 잘하고 하네스 엔지니어링을 기깔나게 하는 사람이 더 중요해질 수밖에 없겠다는 생각이 든다. 중요한 건 모델 이름이 아니다. 모델이 틀릴 때 멈춰 세우고, 맞을 때 속도를 뽑아내고, 헛돌 때 작업장을 더럽히지 못하게 묶어두는 운용 구조다.
결론은 이렇다.
Claude Code든 Codex든, 둘 다 개 폐급에 눈치 없는 천재다. 못 쓸 물건이라는 뜻은 아니다. 오히려 너무 잘해서 문제다. 빨리 만들고, 그럴싸하게 정리하고, 가끔은 내가 못 보던 길도 연다. 동시에 묻지 않고 확신하고, 저장하지 않은 걸 저장했다고 착각하고, 이미 있는 룰도 적용하지 못한다.
그러니 이걸 어떻게든 잘 굴려 쓰려면, 필연적으로 이 도구가 뭐에 강하고 뭐에 약한지 체험적으로 뼈에 새겨둬야 한다. 문서로 읽는 사용법만으로는 안 된다. 한 번씩 제대로 부딪히고, 어디서 헛도는지, 어디서 무식하게 밀어붙이는지, 어디서 압도적으로 빠른지 몸으로 알아야 한다.
언제까지 이래야 할지는 모르겠다. 어쨌든 어떻게든 해보자.
화만 낸다고 결과물이 높아지는 건, 기계든 사람이든 아니다. 분노는 신호고, 구조는 작업이다. 모델을 바꾸는 것보다, 그 눈치 없는 천재를 어디까지 믿고 어디서 끊을지 정하는 일이 먼저다. 오늘은 그걸 겨우 한 번 더 뼈에 새긴 날이다.
댓글 남기기