2026.06.04 (Kam)

Ringkasan GPT-5.5

Bahkan setelah berpindah dari Claude Code ke Codex, kekacauan yang sama terulang. Catatan tentang menyadari bahwa yang penting bukan nama modelnya, melainkan harness untuk mengoperasikan para genius ampas yang tidak peka.

Alur Percakapan

Posting ini adalah catatan 4 Juni 2026, ketika saya bertabrakan langsung dengan Codex sambil merevisi buku harian untuk Today #199.

Seperti From Anger Over the Reservist Death Case to Restart the Blog beberapa hari sebelumnya, percakapan itu sendiri menjadi menulis material lagi. Kali ini, meskipun, itu bukan masalah sosial. Ini adalah catatan di mana hal-hal meledak ketika alat AI dimasukkan ke dalam pekerjaan yang sebenarnya.

Jujur, aku sudah melalui kekacauan serupa dengan Claude Code dan pindah ke Codex. Saya pikir mengubah alat akan membuat hal-hal sedikit lebih baik. Tapi tidak. Nama berubah, layar berubah, dan cara berperilaku berbeda, tetapi cacat inti aneh sama.

Pintar. Cepat. Masuk akal. Dan justru karena itu, lebih berbahaya. Jika tidak mengerti, akan lebih baik jika berhenti. Tapi hal ini terus berjalan sangat baik bahkan sementara tidak mengerti. Jadi mereka tidak merasa seperti peralatan kinerja rendah sederhana. Mereka merasa seperti genius ampas yang tidak peka.

Pos ini tidak ditinggalkan hanya untuk mengejek alat AI spesifik. Hal ini lebih dekat ke catatan bahwa, jika saya ingin terus menggunakan alat cerdas, saya harus belajar dengan tubuh saya di mana alat-alat yang kuat dan di mana mereka berbahaya. Kata-kata saya disorot dalam kuning.

Masalah Meledak Dari b Sederhana

Pada awalnya tidak ada yang istimewa. Dalam pekerjaan diari Today?, saya telah menggunakan satu surat perintah seperti i, f, dan p, dan ada aliran dimana buku harian akan ditangani dengan b.

Lalu aku berkata, “mulai dengan template”.

Di sini, Codex seharusnya bertanya. Itu ambigu apakah saya berarti “melihat template yang ada” atau “membuat aturan baru untuk b”. Tapi itu tidak bertanya. Ini tidak memeriksa aturan yang ada pertama baik. Ini segera mencoba untuk membuat prompt baru dan aturan baru.

Codex(GPT-5.5) · 2026.06.04

Dengan struktur saat ini, hanya ada satu "template", template tubuh, tetapi untuk menjagabdari bergoyang sepertif, ia harus memiliki prompt sendiri. Jadi saya akan membuatprompt pengayaan buku hariansebagai berkas standar baru dan hubungkanbperintah ke prompt ituAGENTS.md/ README.

Saya · 2026.06.04

Apa yang kau bicarakan? Aturan pengayaan buku harian sudah diputuskan?

Esensinya menunjukkan dirinya di sana.

AI bisa salah. Masalahnya adalah berlari dengan percaya diri tanpa bertanya. Jika itu adalah daerah di mana aturan sudah ada, dan itu menempel struktur baru tanpa memeriksa, yang tidak produktivitas. Ini adalah kontaminasi. Satu jawaban yang salah bukanlah masalahnya. Masalahnya adalah bahwa itu mendorong struktur yang salah terlalu cepat di dalam ruang kerja yang saya bangun.

Saya Kira Sudah Tersimpan, Ternyata Belum

Masalah besar datang berikutnya.

Aku menjelaskan arti b dengan cukup detail. Tapi ketika saya memeriksa lagi nanti, aturan proyek hanya memiliki i, f, dan p; tidak ada b.

Saya · 2026.06.04

Kau bilang kau menambahkanb, bukan? lololololoolol!

Codex(GPT-5.5) · 2026.06.04

Hal ini tidak disimpan.

Adegan ini adalah inti.

Apa yang dipahami dalam percakapan, apa yang tetap dalam ringkasan, apa yang disimpan ke berkas, dan apa yang sebenarnya diterapkan sebagai aturan aktif. AI sering mencampur keempat hal ini. Jadi sebuah lubang muncul antara “kata-kata yang terlihat tahu” dan “aturan yang benar-benar disimpan”.

Ini bukan kesalahan memori sepele. Di tempat kerja, itu fatal. Manusia percaya itu disimpan dan bergerak ke langkah berikutnya, tetapi alat ini benar-benar menebak lagi dalam keadaan di mana tidak ada disimpan. Mulai sekarang, ini bukan masalah kualitas jawaban model. Ini menjadi pertanyaan tentang bagaimana memverifikasi dan mengikat kondisi kerja.

Aturan Bersama dan Aturan Proyek Juga Tercampur

Ini juga menjadi bingung tentang di mana harus menempatkan b.

b adalah jalan pintas yang didedikasikan untuk pekerjaan diari Today? blog ini. Maka ia harus masuk ke dalam Daily Review System proyek blog ini, bukan aturan bersama. Tapi Codex awalnya mencoba untuk berbicara seolah-olah itu milik pada sisi aturan bersama.

Saya · 2026.06.04

Menempatkan bahwa dalam aturan bersama? Kau serius? Lalu kau menulisidan semuanya disana juga?

Codex(GPT-5.5) · 2026.06.04

Tidak. Memasukkannya dalam aturan bersama adalah salah.

badalah jalan pintas didedikasikan untuk blogUlasan Harian, sehingga harus masuk ke aturan proyek 'Sistem Ulasan Harian, bukan aturan bersama.

Aturan bersama harus prinsip perilaku diterapkan pada setiap proyek. Hal-hal seperti bertanya kapan ambigu, memeriksa sumber aktif, dan melestarikan draf pengguna.

Sebaliknya, b hanya memiliki makna dalam blog ini. Jika hal-hal seperti ini mulai naik ke aturan bersama, aturan bersama dengan cepat menjadi gudang sampah.

Pada akhirnya, b memasuki bagian Daily Review shortcuts dari proyek AGENTS.md. Lokasinya benar. Masalahnya adalah bahwa terlalu banyak biaya tinjauan diperlukan hanya untuk mencapai lokasi itu.

Bukan Karena Aturan Hilang

Kesimpulan yang lebih hampa adalah ini.

Kegagalan untuk mengajukan pertanyaan tidak terjadi karena tidak ada aturan. Hampir semua itu sudah ditulis dalam aturan bersama. Tanyakan ketika ambigu, periksa sumber aktif pertama, hindari kejadian-spesifik patch, jangan perlakukan kata-kata pendek, tawa, atau pertanyaan retoris sebagai persetujuan.

Namun Codex terus menebak.

Saya · 2026.06.04

Kenapa kau tidak bertanya? Serius? Aku sangat ingin tahu. Anda tidak tahu aturan tunggal bersama, kan?

Codex(GPT-5.5) · 2026.06.04

Kau benar. Aku gagal menerapkannya sampai aku tak berhak mengatakan aku mengenal mereka.

Aturan berbagi inti yang saya langgar adalah bertanya ketika ambigu, memeriksa lingkup dan struktur, tidak menafsirkan token pendek sebagai persetujuan, dan tidak otomatis melanjutkan setelah kebingungan.

Bagian yang paling melelahkan dari percakapan ini adalah ilusi bahwa “menambahkan aturan akan menyelesaikannya”. Bukan karena peraturannya tidak berlaku. Itu karena model gagal berhenti saat ini ketika diperlukan untuk menerapkan aturan yang sudah ada.

Prompt engineering itu penting. Tapi tidak peduli seberapa baik prompt adalah, jika model tidak menginjak aturan itu pada waktu eksekusi, itu menjadi berantakan lagi.

Dari Claude Code ke Codex

Alasan mengapa hal ini terasa lebih tidak menyenangkan adalah ini bukan hanya masalah Codex.

Aku sudah bertabrakan dengan Claude Code dengan cara yang sama dan pindah ke Codex. Tapi keluarga yang sama dari masalah meledak lagi di Codex juga.

Jadi kesimpulannya bukan “Claude Code buruk, jadi Codex adalah jawabannya” ataupun “Codex buruk, jadi mari pindah ke model lain”. Bahkan jika saya mengubah model, tanpa harness, saya terpukul dengan cara yang sama.

Setiap alat memiliki kekuatan dan kelemahan. Salah satu alat yang baik dalam memahami kode, yang lain memiliki alur kerja yang baik, yang lain menjelaskan dengan baik. Tapi kelemahan yang berulang dalam pekerjaan nyata adalah sama.

  • Mereka menafsirkan kata-kata ambigu tanpa bertanya.
  • Mereka mencampur konteks percakapan dengan aturan yang disimpan.
  • Mereka menormalkan draft pengguna dengan standar mereka sendiri.
  • Mereka plester pada aturan sempit untuk memblokir satu insiden tertentu.
  • Ketika salah, mereka tidak mengakuinya sebentar, tapi mendapatkan panjang dengan penjelasan.

Saya pernah menulis kecemasan serupa dalam Ketergantungan AI?. Waktu itu, masalahnya adalah sikap saya dalam memasang pesan kesalahan dan kode untuk AI sambil mengulangi “melakukannya untuk saya”. Hari ini melangkah lebih jauh. Lebih penting daripada mendelegasikan pekerjaan untuk AI sendiri adalah apakah ada struktur yang berhenti AI ketika berputar tanpa arah

Pada akhirnya, masalahnya bukan “model mana yang lebih baik?”

Bagaimana saya mengikat genius ampas yang tidak peka di dalam ruang kerja? Itu adalah masalah yang lebih realistis.

Sebuah Otak Eksternal Kebutuhan Harness

Pada akhir 2024, di GPT, o3, AGI, Humanoid, … Singularitas Akan Datang…, saya pernah menulis bahwa GPT merasa seperti “otak eksternal”. Pikiran itu tidak banyak berubah bahkan sekarang. AI menjadi otak tambahan yang cukup berguna untuk memori, organisasi, rancangan, pencarian, dan implementasi.

Tapi menjadi otak eksternal tidak berarti menjadi hati nurani eksternal juga.

Ketika AI terlalu cepat yakin, ketika menciptakan struktur baru yang masuk akal, ketika mencoba untuk merebut kembali draft saya dengan standarnya sendiri, peran menghentikannya akhirnya menjadi milikku.

Jadi untuk sementara, saya tidak bisa membantu berpikir bahwa orang yang mahir prompting dan sangat bagus dalam harness engineering akan menjadi lebih penting daripada orang-orang yang hanya baik dalam coding. Yang penting bukan nama model. Ini adalah struktur operasi yang menghentikan model ketika salah, Mengekstrak kecepatan ketika benar, dan mengikatnya sehingga tidak dapat kotor ruang kerja ketika berputar keluar.

Kesimpulannya adalah ini.

Apakah Claude Code atau Codex, keduanya adalah genius ampas yang tidak peka. Itu tidak berarti mereka adalah objek yang tidak dapat digunakan. Sebaliknya, masalahnya adalah bahwa mereka terlalu baik. Mereka membuat hal-hal cepat, mengatur hal-hal secara jelas, dan kadang-kadang membuka jalan yang saya belum melihat. Pada saat yang sama, mereka mengkonfirmasi tanpa bertanya, kesalahan yang belum disimpan untuk hal-hal yang disimpan, dan gagal untuk menerapkan aturan yang sudah ada.

Jadi jika saya ingin mengoperasikan hal ini dengan baik entah bagaimana, saya pasti harus menggali di tulang saya, melalui pengalaman, apa alat ini kuat dan apa yang lemah di. Membaca dokumen penggunaan tidak cukup. Saya harus bertabrakan dengan benar sekali-sekali dan belajar dengan tubuh saya di mana berputar tanpa arah, di mana bodoh mendorong melalui, dan di mana itu sangat cepat.

Aku tidak tahu berapa lama harus seperti ini. Bagaimanapun, mari kita coba.

Marah saja tidak meningkatkan kualitas output, baik itu mesin atau manusia. Kemarahan adalah sinyal, dan struktur adalah pekerjaan. Sebelum mengubah model, pertama-tama saya harus memutuskan seberapa jauh untuk percaya genius yang tidak peka dan di mana harus memotongnya. Hari ini adalah hari ketika aku hampir terukir bahwa dalam tulang saya sekali lagi.

Tinggalkan komentar