Prompt Compression untuk Turunkan Biaya Agentic Loop AI

Oleh VOXBLICK

Jumat, 15 Mei 2026 - 08.45 WIB

Prompt Compression untuk Turunkan Biaya Agentic Loop AI

Turunkan biaya agentic loop (Foto oleh Google DeepMind)

VOXBLICK.COM - Kamu mungkin sudah merasakan satu masalah yang sama saat membangun agentic AI loop: biaya token bisa “meledak” hanya karena percakapan dan instruksi terus berulang. Padahal, tujuanmu jelasmendapatkan jawaban yang akurat dan tetap menjaga kualitas. Di sinilah prompt compression jadi teknik yang sangat berguna: cara menyampaikan konteks penting dengan panjang yang lebih pendek, sehingga setiap iterasi loop menghabiskan token lebih sedikit.

Bayangkan agent AI kamu seperti asisten yang harus membaca ulang catatan panjang setiap kali bekerja. Semakin panjang catatan, semakin mahal.

Namun, kalau catatan itu bisa diringkas tanpa menghilangkan informasi kunci (tujuan, batasan, status, dan rencana), agent bisa tetap “paham” dan kualitas output tetap terjaga. Artikel ini akan mengajak kamu memahami apa itu prompt compression, kenapa ia penting untuk agentic loops, dan bagaimana menerapkannya secara praktis agar biaya token turun tanpa mengorbankan kualitas.

Apa itu Prompt Compression?

Prompt compression adalah proses menyederhanakan atau merangkas prompt (instruksi, konteks, dan informasi status) agar tetap mempertahankan makna inti, tetapi dengan jumlah token yang jauh lebih sedikit.

Fokusnya bukan sekadar “memendekkan teks”, melainkan mengurangi redundansi dan mengekstrak elemen yang benar-benar diperlukan oleh model untuk mengambil keputusan.

Dalam konteks agentic AI, prompt biasanya mencakup beberapa komponen: instruksi sistem, tujuan tugas, aturan, contoh, riwayat percakapan, serta “state” (misalnya apa yang sudah dikerjakan, apa yang masih pending, dan rencana langkah berikutnya).

Tanpa kompresi, setiap iterasi loop cenderung mengulang informasi yang sama berkali-kali.

Dengan prompt compression, kamu mengubah “dokumen panjang” menjadi “ringkasan terstruktur” yang lebih padat. Misalnya, kamu bisa mengganti paragraf panjang menjadi format seperti:

Tujuan: …
Constraint: …
State saat ini: …
Langkah berikutnya: …
Data referensi (jika ada): …

Kenapa Prompt Compression Penting untuk Agentic Loop?

Agentic loop biasanya bekerja dengan pola: model membaca konteks → memilih aksi (tool call atau rencana) → menerima hasil → mengulang sampai tugas selesai. Masalahnya, setiap putaran menambah biaya token dari dua sisi:

Input token: prompt makin panjang karena riwayat dan instruksi diulang.
Output token: agent juga menghasilkan teks (rencana, reasoning, atau ringkasan) yang ikut menambah total biaya.

Prompt compression membantu menekan input token dengan mengurangi panjang konteks yang dikirim ke model pada setiap iterasi. Hasilnya, biaya per iterasi turun.

Selain itu, kompresi yang baik juga bisa meningkatkan konsistensi: agent menerima “state” yang jelas dan tidak tenggelam dalam detail yang tidak relevan.

Catatan penting: kompresi yang buruk (misalnya asal menghapus detail) bisa mengurangi kualitas. Karena itu, targetnya adalah mempertahankan informasi paling krusialbukan menghapus semuanya.

Strategi Kompresi yang Efektif (Tanpa Mengorbankan Kualitas)

Agar prompt compression benar-benar menurunkan biaya token, kamu perlu strategi yang sistematis. Berikut beberapa pendekatan yang bisa kamu gabungkan.

1) Pisahkan “instruksi permanen” dan “state dinamis”

Banyak prompt mengandung instruksi yang tidak berubah selama loop. Misalnya aturan format output, kebijakan keamanan, atau definisi tujuan. Sementara itu, state (hasil tool terakhir, status pekerjaan, dan keputusan yang sudah dibuat) berubah.

Instruksi permanen bisa dibuat lebih ringkas dan konsisten.
State dinamis dibuat dalam format ringkas (misalnya bullet atau JSON ringkas) agar mudah di-update.

2) Gunakan ringkasan status yang “informatif, bukan naratif”

Alih-alih mengirim ulang percakapan panjang, kirim ringkasan yang menjawab pertanyaan inti:

Apa tujuan utama saat ini?
Apa yang sudah selesai?
Apa yang masih belum?
Tool apa yang sudah dipanggil dan hasilnya apa?
Keputusan apa yang sudah dibuat (dan kenapa)?

Dengan format ini, agent tidak perlu membaca ulang semua jejakia cukup melihat status terbaru.

3) Kurangi redundansi dengan “canonical format”

Kalau model berkali-kali menulis ulang definisi yang sama, kamu bisa mengubah prompt agar menggunakan format kanonik. Misalnya, seluruh constraint selalu ditulis di satu blok dengan urutan tetap.

Ini membuat token lebih hemat dan mengurangi variasi yang tidak perlu.

4) Kompresi contoh dan referensi

Contoh (few-shot) dan referensi sering memakan token. Kamu bisa:

Memilih contoh paling representatif saja.
Memendekkan contoh menjadi pola inti (misalnya hanya input-output yang relevan).
Jika contoh tidak berubah, simpan di bagian yang tidak perlu dikirim ulang (bergantung arsitektur sistem kamu).

5) Batasi “reasoning verbosity” (dan fokus pada hasil yang dibutuhkan)

Beberapa sistem meminta model menuliskan penalaran panjang. Namun untuk agentic loop, sering kali yang kamu butuhkan adalah rencana langkah atau aksi tool yang spesifik.

Dengan meminta output lebih ringkas (misalnya “rencana 3 langkah” atau “pilih tool berikut”), token bisa turun tanpa mengurangi kemampuan agent.

Langkah Praktis Implementasi Prompt Compression

Berikut langkah yang bisa kamu ikuti untuk menerapkan prompt compression pada agentic AI loop secara bertahap.

Langkah 1: Audit prompt saat ini

Mulai dari mengukur apa yang paling banyak menghabiskan token. Kamu bisa melakukan audit sederhana:

Catat panjang prompt sistem + aturan + riwayat percakapan per iterasi.
Lihat bagian mana yang sama persis di setiap loop.
Identifikasi bagian yang tidak lagi relevan setelah beberapa iterasi (misalnya ringkasan awal yang sudah “ketinggalan zaman”).

Langkah 2: Tentukan “minimum context” yang wajib

Tanya pada dirimu: informasi apa yang wajib agar agent bisa melanjutkan pekerjaan? Biasanya minimum context mencakup:

Tujuan tugas
Constraint (aturan, format output, batasan domain)
State terbaru (hasil tool terakhir, keputusan terakhir)
Rencana atau langkah berikutnya yang belum dieksekusi

Kalau ada informasi yang tidak memengaruhi langkah berikutnya, itulah kandidat utama untuk dikompresi atau dihapus.

Langkah 3: Buat format ringkasan state (template)

Buat template ringkas yang konsisten. Contoh template yang bisa kamu gunakan:

Goal: …
Constraints: …
Completed: …
Current Issues: …
Tool Results: … (ringkas)
Next Action: …

Template ini membuat model “langsung masuk” ke informasi penting tanpa membaca ulang narasi panjang.

Langkah 4: Lakukan kompresi bertahap (bukan sekali jadi)

Alih-alih langsung mengubah seluruh prompt, lakukan iterasi kompresi:

Pertama, kompresi bagian instruksi permanen.
Kedua, kompresi riwayat menjadi ringkasan state.
Ketiga, kompresi output yang dikirim balik ke model (misalnya rencana/rangkuman).

Dengan cara ini, kamu bisa memantau kualitas output dan menemukan titik optimal: token lebih sedikit, tapi model masih “mengerti tugas”.

Langkah 5: Evaluasi kualitas dengan metrik yang jelas

Prompt compression yang sukses tidak hanya “murah”, tapi juga “cukup akurat”. Kamu bisa menetapkan metrik seperti:

Ketepatan jawaban terhadap kriteria tugas
Kepatuhan format output
Keberhasilan tool execution (tidak salah memilih tool)
Jumlah iterasi sampai selesai (apakah makin banyak atau justru sama)

Kalau biaya turun tetapi iterasi naik drastis, berarti kompresinya terlalu agresif atau state kurang informatif.

Contoh Skenario: Mengurangi Token pada Loop Pencarian-Analisis

Misalkan agent kamu melakukan proses: cari info → rangkum → bandingkan → ambil keputusan. Tanpa kompresi, tiap putaran akan membawa riwayat pencarian dan ringkasan sebelumnya.

Dengan prompt compression, kamu bisa mengubah input agent menjadi:

Goal: “Ambil kesimpulan akhir berdasarkan 3 sumber.”
Completed: “Sumber 1 & 2 sudah dirangkum.”
Current Issues: “Butuh ringkasan sumber 3 dan bandingkan dengan sumber 1-2.”
Tool Results: “Sumber 1: ringkasan 3 bullet Sumber 2: ringkasan 3 bullet Sumber 3: belum ada.”
Next Action: “Panggil tool pencarian untuk sumber 3, lalu buat perbandingan.”

Agent tidak perlu membaca ulang detail pencarian awal. Ia cukup melihat state yang terbaru dan langkah berikutnya yang jelas. Ini biasanya menurunkan token secara signifikan.

Tips Lanjutan: Praktik Baik agar Kompresi “Tahan Lama”

Gunakan ringkasan yang terukur: misalnya maksimal 5–10 bullet untuk state, bukan paragraf panjang.
Jaga konsistensi istilah: gunakan label yang sama untuk status, constraint, dan keputusan.
Perbarui ringkasan secara berkala: jangan mengandalkan ringkasan awal yang makin tidak relevan.
Selalu uji regresi: perubahan prompt compression bisa membuat edge case gagal, terutama pada tugas yang butuh ketelitian.

Seiring kamu membangun sistem yang lebih kompleks, prompt compression juga bisa menjadi bagian dari “arsitektur biaya”: bukan sekadar trik, tapi mekanisme untuk menjaga performa agentic loop tetap efisien.

Intinya, prompt compression adalah cara cerdas untuk menurunkan biaya token pada agentic AI loops dengan merangkas konteks menjadi state yang ringkas, terstruktur, dan relevan.

Kamu tidak perlu mengorbankan kualitasasal kompresinya mempertahankan informasi kunci: tujuan, constraint, dan status terbaru. Mulai dari audit prompt, buat template ringkasan state, lalu evaluasi kualitas dan biaya secara bertahap. Dengan pendekatan seperti ini, biaya token turun, agent tetap “paham”, dan iterasi loop lebih efisien.