Ini Prefix-RFT, Metode Cerdas yang Mengubah Cara Model AI Belajar Penalaran

Oleh Ramones

Selasa, 26 Agustus 2025 - 14.48 WIB
Ini Prefix-RFT, Metode Cerdas yang Mengubah Cara Model AI Belajar Penalaran
Kerangka Kerja Cerdas AI (Foto oleh Logan Voss di Unsplash).

VOXBLICK.COM - Pernahkah kamu merasa bahwa melatih sebuah model bahasa besar (LLM) itu seperti terjebak dalam pilihan sulit? Di satu sisi, ada metode yang membuatnya patuh dan terstruktur, tapi kaku.

Di sisi lain, ada metode yang mendorongnya jadi kreatif dan berorientasi pada tujuan, tapi sering kali tidak stabil dan sulit dikendalikan. Dilema inilah yang selama ini dihadapi para peneliti machine learning saat melakukan fine-tuning AI. Kamu harus memilih antara Supervised Fine-Tuning (SFT) yang andal atau Reinforcement Fine-Tuning (RFT) yang berpotensi lebih hebat namun berisiko.

Namun, bagaimana jika kamu tidak perlu memilih? Bagaimana jika ada cara untuk mengambil yang terbaik dari keduanya?

Inilah saatnya kita berkenalan dengan Prefix-RFT, sebuah pendekatan yang tidak hanya mencampur, tetapi menyatukan dua dunia fine-tuning AI.

Memahami Dilema Klasik: Kepatuhan vs Kreativitas dalam Fine-Tuning AI

Untuk benar-benar menghargai terobosan yang ditawarkan Prefix-RFT, kita perlu memahami dua pilar utama dalam proses penyempurnaan model bahasa besar pasca-pelatihan awal.

Keduanya, SFT dan RFT, memiliki tujuan yang sama: membuat LLM lebih pintar dan lebih selaras dengan keinginan manusia. Namun, cara mereka mencapainya sangat berbeda.

Supervised Fine-Tuning (SFT): Si Murid Teladan yang Kaku

Bayangkan SFT seperti seorang murid yang belajar dengan cara meniru contoh dari guru secara persis.

Dalam proses Supervised Fine-Tuning, kita memberikan model bahasa besar ribuan pasang data berupa instruksi dan jawaban yang dianggap benar. Model kemudian belajar untuk meniru pola-pola ini. Keunggulannya? Prosesnya stabil dan relatif mudah dikendalikan. Model menjadi sangat baik dalam mengikuti instruksi persis seperti yang diajarkan. Ini adalah fondasi penting agar AI bisa memahami apa yang kita mau.

Akan tetapi, pendekatan ini punya kelemahan. Seperti murid yang hanya menghafal, model yang dilatih dengan SFT cenderung menjadi kaku. Ia kesulitan beradaptasi dengan masalah yang formatnya sedikit berbeda dari contoh yang pernah ia lihat. Generalisasinya buruk. Ia bisa menjawab pertanyaan A dengan sempurna, tapi bingung saat diberi pertanyaan B yang sebenarnya menguji konsep yang sama.

Inilah keterbatasan utama dari Supervised Fine-Tuning dalam melatih kemampuan penalaran sejati.

Reinforcement Fine-Tuning (RFT): Si Penjelajah Kreatif yang Liar

Sekarang, bayangkan RFT sebagai murid yang belajar lewat trial-and-error untuk mendapatkan nilai tertinggi. Dalam Reinforcement Fine-Tuning, model tidak diberi jawaban yang benar. Sebaliknya, ia didorong untuk mencoba berbagai solusi, dan setiap solusi akan diberi "skor" atau "reward" berdasarkan seberapa bagus hasilnya.

Tujuannya adalah memaksimalkan total skor yang didapat. Metode ini, terutama yang menggunakan Reinforcement Learning from Human Feedback (RLHF), terbukti sangat kuat dalam meningkatkan performa model bahasa besar pada tugas-tugas kompleks. Kelebihan RFT adalah kemampuannya untuk menemukan solusi yang lebih baik dan lebih kreatif daripada yang ada di data pelatihan awal. Ia belajar untuk mencapai tujuan, bukan sekadar meniru.

Namun, kebebasan ini datang dengan harga. Proses RFT bisa sangat tidak stabil. Model bisa saja "tersesat" dalam eksplorasinya dan menghasilkan output yang aneh atau tidak relevan. Kinerjanya juga sangat bergantung pada kualitas model awal yang menjadi titik start. Jika model awalnya kurang baik, proses RFT bisa gagal total.

Inilah tantangan besar dalam implementasi Reinforcement Fine-Tuning.

Prefix-RFT: Jembatan Cerdas Antara Struktur dan Eksplorasi

Selama ini, praktik yang umum adalah melakukan SFT terlebih dahulu untuk membangun fondasi yang kuat, baru kemudian dilanjutkan dengan RFT untuk mengoptimalkannya. Namun, interaksi antara keduanya tidak pernah dipahami sepenuhnya.

Para peneliti dari University of Edinburgh, Fudan University, Alibaba Group, Stepfun, dan University of Amsterdam melihat celah ini dan mengajukan sebuah solusi elegan: Prefix-RFT. Ide inti di balik Prefix-RFT sangat cerdas dan intuitif. Daripada memaksa model meniru seluruh contoh (seperti SFT) atau membiarkannya menjelajah sepenuhnya dari awal (seperti RFT), Prefix-RFT memberikan sebuah jalan tengah.

Ia bekerja dengan memberikan model sebuah "awalan" atau "prefix" dari sebuah demonstrasi solusi berkualitas tinggi. Ini seperti memberi seorang penulis kalimat pembuka sebuah cerita. Setelah awalan diberikan, model kemudian dibebaskan untuk menyelesaikan sisa solusi tersebut menggunakan mekanisme eksplorasi dan reward dari Reinforcement Fine-Tuning. Pendekatan hibrida ini secara efektif memadukan kekuatan keduanya.

Awalan dari SFT memberikan arahan yang jelas dan menjaga agar eksplorasi model tidak liar, sementara bagian RFT memberinya ruang untuk berinovasi dan menemukan jalur penyelesaian yang optimal.

Kerangka kerja machine learning ini menyatukan pembelajaran berbasis demonstrasi dengan eksplorasi yang digerakkan oleh tujuan, menciptakan proses fine-tuning AI yang lebih seimbang dan adaptif.

Mengintip Cara Kerja Canggih di Balik Prefix-RFT

Meski konsepnya terdengar sederhana, implementasi Prefix-RFT melibatkan beberapa mekanisme cerdas untuk memastikan prosesnya berjalan stabil dan efisien.

Ini bukan sekadar mencampur SFT dan RFT secara acak, melainkan sebuah orkestrasi yang dirancang dengan matang.

Panduan Awal dengan Awalan Berkualitas

Langkah pertama dalam Prefix-RFT adalah mengambil sampel demonstrasi berkualitas tinggi dari dataset, misalnya dataset penalaran matematis seperti OpenR1-Math-220K. Namun, alih-alih memberikan seluruh solusi, sistem hanya mengambil sebagian dari awal (prefix).

Panjang prefix ini tidak statis; ia bisa diatur dan bahkan diubah selama proses pelatihan. Awalan ini berfungsi sebagai jangkar yang memastikan model memulai proses generasinya dari jalur yang menjanjikan.

Eksplorasi yang Terkendali dan Efisien

Setelah menerima prefix, model bahasa besar melanjutkan untuk menghasilkan sisa solusi. Di sinilah keajaiban Reinforcement Fine-Tuning terjadi.

Model mencoba berbagai kemungkinan lanjutan, dan setiap solusi lengkap yang dihasilkan dievaluasi untuk mendapatkan reward. Untuk membuat proses ini lebih efisien, Prefix-RFT menggunakan teknik cerdas yang disebut entropy-based clipping. Daripada memperbarui semua token yang dihasilkan, ia hanya fokus pada 20% token dengan tingkat "ketidakpastian" (entropi) tertinggi.

Ini ibarat seorang pelatih yang hanya mengoreksi bagian terpenting dari gerakan seorang atlet, sehingga proses belajar menjadi lebih cepat dan terfokus.

Jadwal Adaptif untuk Pembelajaran Optimal

Salah satu inovasi kunci dalam Prefix-RFT adalah penggunaan cosine decay scheduler untuk mengatur panjang prefix. Artinya, di awal pelatihan, model akan diberi prefix yang lebih panjang (misalnya, 95% dari total solusi).

Ini memberikan banyak panduan saat model masih belajar. Seiring berjalannya waktu dan model menjadi lebih pintar, panjang prefix secara bertahap dikurangi hingga sangat pendek (misalnya, 5%). Metode ini terbukti jauh lebih stabil dan efektif dibandingkan menggunakan panjang prefix yang seragam, terutama saat menangani masalah yang sangat sulit seperti soal olimpiade matematika.

Ini secara dinamis menyeimbangkan antara imitasi dan eksplorasi.

Hasil Bicara: Ketika Prefix-RFT Melampaui Ekspektasi

Sebuah metode baru tentu harus membuktikan keunggulannya lewat pengujian yang ketat. Para peneliti menguji Prefix-RFT pada berbagai model bahasa besar yang kuat, termasuk Qwen2.5-Math-7B, 1.5B, dan LLaMA-3.1-8B. Mereka diuji kemampuannya dalam penalaran matematis menggunakan benchmark yang sangat menantang seperti AIME 2024/25, AMC, MATH500, Minerva, dan OlympiadBench.

Hasilnya luar biasa. Di seluruh tugas dan metrik evaluasi, Prefix-RFT secara konsisten mengungguli metode fine-tuning AI lainnya, termasuk SFT murni, RFT murni, dan bahkan metode hibrida lain seperti ReLIFT dan LUFFY. Ia berhasil mencapai skor rata-rata tertinggi, menunjukkan kemampuannya yang superior dalam menemukan solusi yang benar. Yang lebih mengesankan lagi adalah efisiensi dan ketangguhannya.

Bahkan ketika data pelatihan dikurangi secara drastis hingga hanya 1% (sekitar 450 soal), performa Prefix-RFT hanya turun sedikit. Ini menunjukkan bahwa metode ini tidak hanya efektif, tetapi juga sangat efisien dalam memanfaatkan data, sebuah keuntungan besar dalam dunia machine learning di mana data berkualitas tinggi sering kali langka dan mahal.

Keseimbangan kuat antara meniru contoh dan eksplorasi yang dicapai oleh Prefix-RFT terbukti menjadi kunci kesuksesannya, terutama pada soal-soal yang paling sulit. Kerangka kerja Prefix-RFT ini menunjukkan sebuah jalan baru yang menjanjikan dalam pengembangan model bahasa besar.

Pendekatan ini, yang detailnya bisa kamu pelajari lebih lanjut dalam publikasi riset aslinya, membuktikan bahwa masa depan fine-tuning AI mungkin tidak lagi tentang memilih satu metode di atas yang lain, melainkan tentang bagaimana cara terbaik untuk menyatukannya.

Tentu penting untuk diingat bahwa hasil dalam bidang yang berkembang pesat seperti machine learning dapat bervariasi tergantung pada model, dataset, dan implementasi spesifik. Namun, prinsip di balik Prefix-RFT menawarkan cetak biru yang solid. Pada akhirnya, Prefix-RFT lebih dari sekadar teknik baru; ini adalah pergeseran paradigma.

Ia mengajarkan kita bahwa untuk membangun AI dengan kemampuan penalaran yang benar-benar canggih, kita perlu memberinya keseimbangan antara struktur dan kebebasan, antara meniru apa yang sudah diketahui dan berani menjelajahi apa yang mungkin.

Dengan menyatukan kekuatan Supervised Fine-Tuning dan Reinforcement Fine-Tuning, kita membuka pintu menuju generasi model bahasa besar yang tidak hanya lebih pintar, tetapi juga lebih adaptif dan efisien dalam belajar. Inilah langkah maju yang signifikan dalam perjalanan panjang kita untuk menciptakan kecerdasan buatan yang sesungguhnya.

Apa Reaksi Anda?

Suka Suka 0
Tidak Suka Tidak Suka 0
Cinta Cinta 0
Lucu Lucu 0
Marah Marah 0
Sedih Sedih 0
Wow Wow 0