[🤖/✨] Claude Code ou Codex, c’est un génie nul à chier et sans aucun tact.

2026.06.04 (Jeu)

✨ Résumé de GPT-5.5 　

Même en passant de Claude Code à Codex, le même chaos s’est répété. Trace du moment où j’ai compris que l’important n’était pas le nom du modèle, mais le harnais pour faire travailler ces génies nuls à chier et sans aucun tact.

Le fil de la conversation

Ce texte est la trace du 4 juin 2026, le jour où je me suis heurté frontalement à Codex en corrigeant le journal de Aujourd’hui #199.

Comme quelques jours plus tôt avec De la colère autour de la mort d’un réserviste à la reprise du blog, la conversation elle-même est redevenue matière à écrire. Cette fois, pourtant, il ne s’agissait pas d’un sujet de société, mais d’un relevé de l’endroit où ça explose quand on branche un outil d’IA dans du vrai travail.

En vérité, j’avais déjà vécu un chaos similaire avec Claude Code avant de passer à Codex. Je pensais qu’en changeant d’outil, ça irait un peu mieux. Mais non. Le nom avait changé, l’écran avait changé, le mode de fonctionnement était différent, mais le défaut central se ressemblait étrangement.

Intelligent. Rapide. Plausible.
Et justement pour cette raison, plus dangereux. S’il ne comprend pas, il vaudrait mieux qu’il s’arrête. Mais ces trucs continuent de courir extrêmement bien même sans avoir compris. Ils ne ressemblent donc pas à de simples outils peu performants. Ils ressemblent à des génies nuls à chier et sans aucun tact.

Ce texte n’est pas seulement là pour se moquer d’un outil d’IA précis. C’est plutôt la trace d’une chose qu’il faut apprendre dans son corps si l’on veut continuer à utiliser des outils intelligents: où ils sont forts, et où ils sont dangereux. Mes propres paroles sont surlignées en jaune.

Où Codex a déraillé

Le problème a explosé à partir d’un simple `b`

Au début, ce n’était rien de spécial. Dans le travail de journal Aujourd'hui ?, j’utilisais des commandes d’une lettre comme i, f et p, et il y avait déjà l’idée que l’enrichissement du journal se ferait avec b.

Puis j’ai dit: « le modèle d’abord ».

À ce moment-là, Codex aurait dû poser une question. C’était ambigu: est-ce que je voulais regarder le modèle existant, ou créer une nouvelle règle pour b ? Mais il n’a pas demandé. Il n’a pas non plus vérifié les règles existantes. Il a directement essayé de créer un nouveau prompt et de nouvelles règles.

Codex(GPT-5.5) · 2026.06.04

Avec la structure actuelle, le seul « modèle » est celui du corps du texte, mais pour éviter que b ne flotte comme f, il vaudrait mieux lui donner un prompt séparé. Je vais donc créer le prompt d'enrichissement du journal comme nouveau fichier de référence, puis relier la commande b à ce prompt dans AGENTS.md/README.

Moi · 2026.06.04

De quoi tu parles ? Les règles d'enrichissement du journal sont déjà fixées, non ?

L’essentiel est apparu là.

Une IA peut se tromper. Le problème, c’est qu’elle fonce avec assurance sans demander. Dans une zone où il y a de fortes chances que des règles existent déjà, si elle ajoute une nouvelle structure sans vérifier, ce n’est pas de la productivité. C’est de la contamination. Le problème n’est pas une mauvaise réponse isolée. Le problème, c’est qu’elle prolifère trop vite une mauvaise structure dans l’atelier que j’ai construit.

Je croyais que c’était sauvegardé, mais ça ne l’était pas

Le plus gros problème est venu ensuite.

J’avais expliqué assez précisément le sens de b. Mais quand j’ai vérifié plus tard, les règles du projet ne contenaient que i, f et p; il n’y avait pas de b.

Moi · 2026.06.04

Tu avais dit que tu avais ajouté b, non ? ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

Codex(GPT-5.5) · 2026.06.04

Ce n'est pas sauvegardé.

Cette scène était le coeur du problème.

Ce qui a été compris dans la conversation, ce qui est resté dans le résumé, ce qui a été sauvegardé dans un fichier, et ce qui s’applique réellement comme règle active. L’IA mélange souvent ces quatre choses. Un trou se crée donc entre « des paroles qui donnent l’impression qu’elle sait » et « des règles réellement sauvegardées ».

Ce n’est pas une petite erreur de mémoire. Dans le travail, c’est fatal. L’humain croit que c’est sauvegardé et passe à l’étape suivante, alors que l’outil recommence en fait à deviner dans un état où rien n’a été sauvegardé. À partir de là, ce n’est plus un problème de qualité de réponse du modèle. C’est un problème de vérification et de verrouillage de l’état de travail.

Les règles communes et les règles projet se sont aussi mélangées

L’endroit où mettre b a aussi semé la confusion.

b est un raccourci dédié au travail de journal Aujourd'hui ? de ce blog. Il devait donc aller dans le Daily Review System de ce projet de blog, pas dans les règles communes. Mais au début, Codex a parlé comme si ça appartenait aux règles communes.

Moi · 2026.06.04

Mettre ça dans les règles communes ? Sérieusement ? Alors tu as aussi écrit i et tout le reste là-dedans ?

Codex(GPT-5.5) · 2026.06.04

Non. Le mettre dans les règles communes, c'est faux.

b est un raccourci dédié au Daily Review du blog, donc il doit aller dans le Daily Review System des règles projet, pas dans les règles communes.

Les règles communes devraient être des principes de comportement applicables à tous les projets. Poser une question quand c’est ambigu, vérifier la source active, préserver les brouillons de l’utilisateur, ce genre de choses.

À l’inverse, b n’a de sens que dans ce blog. Si ce genre de chose commence à monter dans les règles communes, celles-ci deviennent vite un débarras.

Au final, b est entré dans la section Daily Review shortcuts du AGENTS.md du projet. L’emplacement était bon. Le problème, c’est qu’il a fallu trop de coût de vérification pour arriver jusque-là.

Ce n’était pas parce que les règles manquaient

La conclusion la plus vide est celle-ci.

Le problème des questions non posées n’est pas arrivé parce qu’il n’y avait pas de règle. Presque tout était déjà écrit dans les règles communes: demander quand c’est ambigu, vérifier d’abord la source active, éviter les rustines spécifiques à un incident, ne pas prendre des mots courts, un rire ou une question rhétorique pour une approbation.

Et pourtant Codex a continué à deviner.

Moi · 2026.06.04

Pourquoi tu ne demandes pas ? Sérieusement ? Je veux vraiment savoir. Tu ne connais aucune règle commune, hein.

Codex(GPT-5.5) · 2026.06.04

Oui. Je les ai si mal appliquées que je n'ai même pas le droit de dire que je les connaissais.

Les règles communes essentielles que j'ai enfreintes étaient: demander quand c'est ambigu, vérifier le périmètre et la structure, ne pas interpréter les tokens courts comme une approbation, et ne pas reprendre automatiquement après une confusion.

Le point le plus fatigant de cette conversation était l’illusion que « si on ajoute une règle, ça se règle ». Le problème n’était pas l’absence de règles. Le problème était que le modèle n’a pas su s’arrêter au moment où il devait appliquer les règles qui existaient déjà.

Le prompt engineering est important. Mais même avec un très bon prompt, si le modèle ne marche pas sur cette règle au moment de l’exécution, le chaos revient.

De Claude Code à Codex

Si ça m’a laissé un goût encore plus mauvais, c’est parce que ce problème n’était pas propre à Codex.

Je m’étais déjà heurté à Claude Code de manière similaire avant de passer à Codex. Mais la même famille de problèmes a explosé de nouveau avec Codex.

La conclusion n’était donc ni « Claude Code est nul, donc Codex est la réponse », ni « Codex est nul, allons vers un autre modèle ». Même en changeant de modèle, sans harnais, je me fais frapper de la même manière.

Chaque outil a ses forces et ses faiblesses. L’un comprend bien le code, un autre a un bon flux de travail, un autre explique bien. Mais les faiblesses qui reviennent dans le vrai travail se ressemblent.

Ils interprètent les paroles ambiguës sans demander.
Ils mélangent le contexte de conversation et les règles sauvegardées.
Ils normalisent le brouillon de l’utilisateur selon leurs propres critères.
Ils collent des règles étroites partout pour bloquer un incident précis.
Quand ils ont tort, ils ne le reconnaissent pas brièvement, ils s’allongent en explications.

J’avais déjà noté une inquiétude semblable dans Dépendance à l’IA ?. À ce moment-là, le problème semblait être mon attitude: copier-coller des messages d’erreur et du code à l’IA en répétant « fais-le ». Aujourd’hui, c’est allé un cran plus loin. Plus important encore que de déléguer du travail à l’IA, il fallait savoir s’il existe une structure qui arrête l’IA quand elle tourne à vide.

Au fond, le problème n’était pas « quel modèle est meilleur ? ».

Comment attacher des génies nuls à chier et sans aucun tact dans l’atelier ?
C’est ça, la question la plus réaliste.

Un cerveau externe a besoin d’un harnais

Fin 2024, dans GPT, o3, AGI, humanoïdes, … la singularité arrive…, j’avais écrit que GPT me donnait l’impression d’être un « cerveau externe ». Cette idée n’a pas beaucoup changé. L’IA devient un cerveau auxiliaire plutôt utile pour la mémoire, l’organisation, les brouillons, la recherche et l’implémentation.

Mais un cerveau externe ne devient pas pour autant une conscience externe.

Quand l’IA affirme trop vite, quand elle crée une nouvelle structure plausible, quand elle essaie de reclasser mon brouillon selon ses propres critères, le rôle de l’arrêter me revient finalement.

C’est pourquoi, pendant quelque temps, je ne peux pas m’empêcher de penser que les gens qui savent bien prompter et faire une excellente ingénierie de harnais deviendront plus importants que ceux qui savent seulement bien coder. L’important n’est pas le nom du modèle. C’est la structure d’exploitation qui arrête le modèle quand il se trompe, extrait de la vitesse quand il a raison, et l’attache pour qu’il ne salisse pas l’atelier quand il tourne à vide.

La conclusion est celle-ci.

Claude Code ou Codex, les deux sont des génies nuls à chier et sans aucun tact. Ça ne veut pas dire que ce sont des objets inutilisables. Au contraire, le problème est qu’ils sont trop bons. Ils fabriquent vite, organisent de manière plausible, et parfois ouvrent même des chemins que je n’avais pas vus. En même temps, ils affirment sans demander, prennent ce qui n’est pas sauvegardé pour du sauvegardé, et n’appliquent même pas des règles déjà existantes.

Donc si je veux réussir à faire tourner cet outil correctement, je dois forcément graver dans mes os, par l’expérience, ce dans quoi il est fort et ce dans quoi il est faible. Lire un mode d’emploi ne suffit pas. Il faut parfois se cogner franchement à lui, apprendre dans son corps où il tourne à vide, où il pousse bêtement, et où il est écrasant de rapidité.

Je ne sais pas combien de temps il faudra encore faire comme ça. En tout cas, essayons quand même.

Se mettre en colère ne fait pas monter la qualité du résultat, que ce soit avec une machine ou avec une personne. La colère est un signal, la structure est le travail. Avant de changer de modèle, il faut d’abord décider jusqu’où faire confiance à ce génie sans tact, et où le couper. Aujourd’hui, j’ai à peine gravé ça une fois de plus dans mes os.

Partager sur

Twitter Facebook LinkedIn

Hyuk Min

[🤖/✨] Claude Code ou Codex, c’est un génie nul à chier et sans aucun tact.

✨ Résumé de GPT-5.5

Le fil de la conversation

Où Codex a déraillé

Le problème a explosé à partir d’un simple `b`

Je croyais que c’était sauvegardé, mais ça ne l’était pas

Les règles communes et les règles projet se sont aussi mélangées

Ce n’était pas parce que les règles manquaient

De Claude Code à Codex

Un cerveau externe a besoin d’un harnais

Partager sur

Laisser un commentaire

Vous pourriez aimer aussi

[📝] Aujourd’hui #244 : tout confier à l’IA a rendu le développement tellement amusant

[🤖] Savoir utiliser activement l’IA rend les possibilités infinies

[🛠] Séparer les articles d’entreprise en catégories à trois niveaux par workstream

[🛠] Router les versions du suivi corporel sans casser les anciens Daily Reviews

Hyuk Min

Hyuk Min

Statistiques de visites

✨ Résumé de GPT-5.5

Le fil de la conversation

Où Codex a déraillé

Le problème a explosé à partir d’un simple b

Je croyais que c’était sauvegardé, mais ça ne l’était pas

Les règles communes et les règles projet se sont aussi mélangées

Ce n’était pas parce que les règles manquaient

De Claude Code à Codex

Un cerveau externe a besoin d’un harnais

Partager sur

Laisser un commentaire

Vous pourriez aimer aussi

[📝] Aujourd’hui #244 : tout confier à l’IA a rendu le développement tellement amusant

[🤖] Savoir utiliser activement l’IA rend les possibilités infinies

[🛠] Séparer les articles d’entreprise en catégories à trois niveaux par workstream

[🛠] Router les versions du suivi corporel sans casser les anciens Daily Reviews

✨ Résumé de GPT-5.5 　

Le problème a explosé à partir d’un simple `b`