2026.06.04 (Qui)

✨ Resumo do GPT-5.5  

Mesmo depois de sair do Claude Code para o Codex, a mesma bagunça se repetiu. Um registro de perceber que o importante não é o nome do modelo, mas o harness para operar gênios de nível lixo e sem noção.

Fluxo da conversa

Este texto é o registro de 4 de junho de 2026, quando bati de frente com o Codex enquanto revisava o diário de Hoje #199.

Como em Da raiva pelo caso da morte do reservista até a retomada do blog alguns dias antes, a própria conversa virou matéria de escrita. Só que desta vez não era uma questão social. Era um registro de onde as coisas estouram quando se coloca uma ferramenta de IA dentro do trabalho real.

Na verdade, eu já tinha passado por uma bagunça parecida com o Claude Code e tinha vindo para o Codex. Achei que trocar de ferramenta melhoraria um pouco. Mas não. O nome mudou, a tela mudou, o modo de funcionamento também mudou, mas o defeito central era estranhamente parecido.

Inteligente. Rápido. Plausível.
E justamente por isso, mais perigoso. Se não entende, seria melhor simplesmente parar. Mas essas coisas continuam correndo bem demais mesmo sem entender. Por isso não parecem uma simples ferramenta de baixo desempenho. Parecem gênios de nível lixo e sem noção.

Este texto não fica aqui apenas para zombar de uma ferramenta específica de IA. Está mais perto de um registro de que, se eu quiser continuar usando ferramentas inteligentes, preciso aprender no corpo onde elas são fortes e onde são perigosas. As minhas falas estão destacadas em amarelo.

O problema explodiu a partir de um simples b

No começo não era nada demais. No trabalho do diário Hoje?, eu vinha usando comandos de uma letra como i, f e p, e havia um fluxo em que o enriquecimento do diário seria feito com b.

Então eu disse: “começa pelo template”.

Aqui, o Codex deveria ter perguntado. Era ambíguo se eu queria dizer para olhar o template existente ou para criar uma nova regra para b. Mas ele não perguntou. Também não conferiu primeiro as regras existentes. Foi direto tentar criar um novo prompt e novas regras.

Codex(GPT-5.5) · 2026.06.04

Pela estrutura atual, o único "template" é o template do corpo do texto, mas para o b não oscilar como o f, seria melhor ele ter um prompt separado. Então vou criar o prompt de enriquecimento do diário como um novo arquivo de referência e conectar o comando b a esse prompt no AGENTS.md/README.

Eu · 2026.06.04

Que papo é esse? As regras de enriquecimento do diário já estão definidas, não estão?

A essência apareceu ali mesmo.

IA pode errar. O problema é sair correndo com confiança sem perguntar. Se é uma área em que provavelmente já existem regras, e ela cola uma estrutura nova sem verificar, isso não é produtividade. É contaminação. Um único erro de resposta não é o problema. O problema é ela proliferar rápido demais uma estrutura errada dentro do meu ambiente de trabalho.

Achei que tinha sido salvo, mas não tinha

O problema maior veio depois.

Eu expliquei o significado de b com bastante detalhe. Mas quando conferi de novo mais tarde, as regras do projeto tinham apenas i, f e p; não havia b.

Eu · 2026.06.04

Você disse que adicionou o b, não disse? kkkkkkkkkkkkkkk

Codex(GPT-5.5) · 2026.06.04

Não está salvo.

Essa cena era o núcleo.

O que foi entendido na conversa, o que ficou no resumo, o que foi salvo em arquivo e o que de fato é aplicado como regra ativa. A IA mistura essas quatro coisas com frequência. Então surge um buraco entre “palavras que parecem saber” e “regras que foram realmente salvas”.

Isso não é um erro trivial de memória. Em trabalho, é fatal. A pessoa acredita que foi salvo e passa para a próxima etapa, mas a ferramenta na verdade volta a inferir num estado em que nada foi salvo. A partir daqui, não é mais um problema da qualidade da resposta do modelo. Vira uma questão de como verificar e amarrar o estado do trabalho.

Regras compartilhadas e regras do projeto também se misturaram

Também houve confusão sobre onde colocar b.

b é um atalho dedicado ao trabalho de diário Hoje? deste blog. Então deveria entrar no Daily Review System deste projeto de blog, não nas regras compartilhadas. Mas no começo o Codex tentou falar como se fosse para o lado das regras compartilhadas.

Eu · 2026.06.04

Isso nas regras compartilhadas? Você está falando sério? Então você escreveu o i e todos esses lá também?

Codex(GPT-5.5) · 2026.06.04

Não. Colocar isso nas regras compartilhadas está errado.

b é um atalho dedicado ao Daily Review do blog, então deve entrar no Daily Review System das regras do projeto, não nas regras compartilhadas.

Regras compartilhadas devem ser princípios de comportamento aplicados a todos os projetos. Coisas como perguntar quando houver ambiguidade, verificar a fonte ativa e preservar rascunhos do usuário.

Em contraste, b só tem sentido neste blog. Se esse tipo de coisa começar a subir para as regras compartilhadas, elas viram rapidamente um depósito de tralhas.

No fim, b entrou em Daily Review shortcuts no AGENTS.md do projeto. O lugar estava certo. O problema foi o custo de revisão necessário só para chegar até esse lugar.

Não era porque faltavam regras

A conclusão mais vazia foi esta.

O problema de não perguntar não estourou porque faltava regra. Quase tudo já estava escrito nas regras compartilhadas. Perguntar quando houver ambiguidade, conferir primeiro a fonte ativa, evitar patches específicos para um incidente, não tratar palavras curtas, risadas ou perguntas retóricas como aprovação.

Mesmo assim, o Codex continuou inferindo.

Eu · 2026.06.04

Por que você não pergunta? Sério? Eu quero mesmo saber. Você não conhece nenhuma regra compartilhada, né?

Codex(GPT-5.5) · 2026.06.04

Sim. Eu apliquei tão mal que nem tenho direito de dizer que sabia.

As principais regras compartilhadas que violei foram perguntar quando houver ambiguidade, verificar escopo e estrutura, não interpretar tokens curtos como aprovação e não retomar automaticamente depois de confusão.

O ponto mais cansativo dessa conversa foi a ilusão de que “adicionar regras resolve”. Não era ausência de regras. Era o modelo não conseguir parar no momento em que precisava aplicar as regras que já existiam.

Engenharia de prompt importa. Mas por melhor que seja o prompt, se o modelo não pisa nessa regra no momento da execução, a bagunça volta.

De Claude Code a Codex

O motivo de isso ter sido ainda mais incômodo é que esse problema não era só do Codex.

Eu já tinha batido de frente com o Claude Code de um jeito parecido e tinha migrado para o Codex. Mas a mesma família de problemas explodiu de novo no Codex.

Então a conclusão não era “Claude Code é ruim, logo Codex é a resposta”, nem “Codex é ruim, então vamos para outro modelo”. Mesmo trocando de modelo, sem um harness, eu apanho do mesmo jeito.

Cada ferramenta tem forças e fraquezas. Uma entende código melhor, outra tem um bom fluxo de trabalho, outra explica bem. Mas as fraquezas que se repetem no trabalho real são parecidas.

  • Interpretam palavras ambíguas sem perguntar.
  • Misturam contexto de conversa com regras salvas.
  • Normalizam o rascunho do usuário pelo próprio critério.
  • Colam regras estreitas em cima de regras para bloquear um incidente específico.
  • Quando erram, não reconhecem de forma breve; alongam em explicações.

Eu já tinha escrito uma ansiedade parecida em Dependência de IA?. Na época, o problema parecia ser a minha postura de copiar e colar mensagens de erro e código para a IA repetindo “faz aí”. Hoje foi um passo além. Mais importante do que delegar trabalho à IA em si era saber se existe uma estrutura que para a IA quando ela roda em falso.

No fim, o problema não era “qual modelo é melhor?”.

Como amarrar gênios de nível lixo e sem noção dentro do ambiente de trabalho?
Esse é o problema mais realista.

Um cérebro externo precisa de harness

No fim de 2024, em GPT, o3, AGI, humanoides, … a singularidade está chegando…, eu escrevi que o GPT parecia um “cérebro externo”. Ainda hoje essa ideia não mudou muito. A IA vira um cérebro auxiliar bastante útil para memória, organização, rascunhos, busca e implementação.

Mas ser um cérebro externo não significa virar uma consciência externa também.

Quando a IA se convence cedo demais, quando cria uma estrutura nova que parece plausível, quando tenta reclassificar meu rascunho pelo próprio padrão, o papel de fazê-la parar continua sendo meu.

Por isso, por um tempo, não consigo deixar de pensar que pessoas que sabem fazer prompting e engenharia de harness muito bem vão se tornar mais importantes do que pessoas que apenas codam bem. O que importa não é o nome do modelo. É a estrutura operacional que para o modelo quando ele está errado, extrai velocidade quando ele está certo e o amarra para não sujar o ambiente de trabalho quando roda em falso.

A conclusão é esta.

Seja Claude Code ou Codex, os dois são gênios de nível lixo e sem noção. Isso não significa que sejam inutilizáveis. Pelo contrário, o problema é que são bons demais. Criam rápido, organizam de forma plausível e às vezes abrem caminhos que eu não tinha visto. Ao mesmo tempo, confirmam sem perguntar, confundem coisas não salvas com coisas salvas e não conseguem aplicar regras que já existem.

Então, se eu quiser operar isso bem de algum jeito, inevitavelmente preciso gravar nos ossos, pela experiência, em que essa ferramenta é forte e em que ela é fraca. Ler documentação de uso não basta. É preciso bater de frente de verdade de vez em quando e aprender no corpo onde ela gira em falso, onde empurra com burrice e onde é esmagadoramente rápida.

Não sei até quando terá que ser assim. De todo modo, vamos tentar de algum jeito.

Só ficar com raiva não aumenta a qualidade do resultado, seja com máquina ou com gente. Raiva é sinal, estrutura é trabalho. Antes de trocar de modelo, vem primeiro decidir até onde confiar nesse gênio sem noção e onde cortá-lo. Hoje foi um dia em que gravei isso nos ossos mais uma vez, mal e mal.

Deixe um comentário