Liquid AI Rilis LFM2-VL, Model Visi-Bahasa Super Cepat untuk Semua Perangkat

Oleh VOXBLICK

Kamis, 21 Agustus 2025 - 18.35 WIB
Liquid AI Rilis LFM2-VL, Model Visi-Bahasa Super Cepat untuk Semua Perangkat
AI canggih kini hadir di perangkat pribadi berkat model visi-bahasa efisien dari Liquid AI, membuka era baru aplikasi yang lebih cepat, privat, dan responsif. Foto oleh dukecapitalpartners.duke.edu via Google.

VOXBLICK.COM - Kecerdasan buatan yang mampu memahami dunia visual dan meresponsnya dengan bahasa manusia bukan lagi fiksi ilmiah. Namun, hingga kini, kekuatan tersebut sebagian besar terkurung di pusat data raksasa, membutuhkan koneksi internet yang stabil dan memicu kekhawatiran privasi.

Bayangkan jika ponsel, laptop, atau bahkan kacamata pintar Anda bisa memiliki kemampuan ini secara mandiri. Inilah visi yang diwujudkan oleh Liquid AI melalui rilis terbarunya: LFM2-VL, sebuah keluarga model visi-bahasa yang dirancang untuk mendobrak batasan dan membawa AI canggih langsung ke genggaman Anda. LFM2-VL bukan sekadar model baru; ini adalah sebuah pernyataan bahwa era AI on-device yang sesungguhnya telah tiba.

Dengan fokus pada latensi rendah dan efisiensi sumber daya, Liquid AI secara spesifik menargetkan tantangan terbesar dalam penerapan AI di perangkat keras konsumen, membuka pintu bagi gelombang baru aplikasi yang lebih cepat, lebih pribadi, dan lebih responsif.

Apa Sebenarnya LFM2-VL dari Liquid AI?

Secara sederhana, LFM2-VL adalah keluarga model fondasi visi-bahasa (Vision-Language Foundation Models).

Ini berarti LFM2-VL adalah sebuah sistem multimodal AI yang dilatih untuk memahami dan menghubungkan dua jenis data yang sangat berbeda: gambar (visi) dan teks (bahasa). Anda bisa memberinya sebuah gambar dan bertanya, "Apa yang terjadi di sini?" atau memintanya untuk mendeskripsikan objek tertentu, dan ia akan menjawab dalam bahasa yang natural.

Kemampuan ini adalah inti dari banyak aplikasi AI modern, mulai dari asisten virtual hingga robotika. Liquid AI merilis LFM2-VL dalam dua varian yang sangat efisien, masing-masing dirancang untuk skenario penggunaan yang berbeda:

LFM2-VL-450M

Dengan 450 juta parameter, varian ini adalah definisi dari sebuah AI efisien.

Model ini dirancang khusus untuk lingkungan dengan sumber daya sangat terbatas, seperti smartphone kelas menengah, perangkat wearable, atau sistem tertanam (embedded systems) di dalam perangkat IoT. Ukurannya yang ringkas memastikan ia dapat berjalan lancar tanpa menguras baterai atau membebani prosesor.

LFM2-VL-1.6B

Varian yang lebih besar ini, dengan 1,6 miliar parameter, menawarkan kemampuan yang lebih tinggi dan pemahaman yang lebih mendalam.

Meskipun lebih kuat, model ini tetap sangat ringan dibandingkan model visi-bahasa raksasa lainnya. Ia dioptimalkan untuk berjalan pada satu GPU atau perangkat seluler kelas atas, memberikan keseimbangan sempurna antara performa tinggi dan efisiensi untuk aplikasi AI on-device yang lebih menuntut.

Kedua model ini menandai lompatan signifikan dalam menghadirkan multimodal AI yang praktis dan dapat diakses, bukan hanya sebagai demo teknologi di laboratorium, tetapi sebagai alat yang siap diimplementasikan oleh para pengembang di seluruh dunia.

Kecepatan dan Efisiensi: Terobosan untuk AI On-Device

Klaim utama dari Liquid AI untuk LFM2-VL adalah kecepatannya.

Mereka mengklaim bahwa model ini mampu memberikan inferensi GPU hingga 2 kali lebih cepat dibandingkan model visi-bahasa yang ada saat ini. Dalam dunia AI, 'inferensi' adalah proses di mana model menggunakan pengetahuannya untuk membuat prediksi atau menghasilkan output, seperti menjawab pertanyaan tentang sebuah gambar. Kecepatan inferensi adalah segalanya untuk aplikasi real-time. Manfaat dari kecepatan ini sangat nyata.

Untuk aplikasi seperti captioning video secara langsung, augmented reality, atau asisten robotik, keterlambatan sepersekian detik pun dapat merusak pengalaman pengguna. Dengan LFM2-VL, pemrosesan AI on-device dapat terjadi secara instan, tanpa perlu mengirim data bolak-balik ke server cloud. Ini membawa beberapa keuntungan besar: 1. Latensi Sangat Rendah: Respons yang hampir seketika, penting untuk interaksi yang terasa alami.

2. Peningkatan Privasi: Data sensitif, seperti foto dan video pribadi, tidak pernah meninggalkan perangkat pengguna. Semua pemrosesan dilakukan secara lokal. 3. Fungsi Offline: Aplikasi dapat terus bekerja bahkan tanpa koneksi internet, membuka kasus penggunaan di lokasi terpencil atau saat konektivitas tidak stabil.

4. Penghematan Biaya: Mengurangi ketergantungan pada infrastruktur cloud yang mahal, baik bagi pengembang maupun pengguna akhir. LFM2-VL secara fundamental mengubah paradigma pengembangan aplikasi AI.

Ia membuktikan bahwa AI efisien tidak harus berarti kompromi pada performa, dan bahwa pengalaman multimodal AI yang canggih dapat dijalankan langsung di perangkat yang kita gunakan setiap hari.

Di Balik Layar: Inovasi Teknis yang Mendorong Performa

Kecepatan dan efisiensi luar biasa dari LFM2-VL bukanlah kebetulan. Ini adalah hasil dari serangkaian inovasi teknis cerdas yang dirancang oleh tim di Liquid AI.

Arsitekturnya secara khusus dibangun untuk memaksimalkan throughput dan meminimalkan jejak komputasi. Mari kita bedah beberapa teknologi kunci di baliknya.

Arsitektur Modular yang Fleksibel

LFM2-VL tidak dibangun sebagai satu blok monolitik. Sebaliknya, ia menggunakan pendekatan modular yang menggabungkan komponen-komponen terbaik di kelasnya. Ini termasuk backbone model bahasa (LFM2-1.2B atau LFM2-350M), vision encoder SigLIP2 NaFlex yang canggih, dan sebuah proyektor multimodal.

Proyektor inilah yang bertugas sebagai jembatan, menerjemahkan informasi visual dari gambar menjadi format yang dapat dipahami oleh model bahasa. Pendekatan modular ini memungkinkan optimalisasi yang lebih baik pada setiap komponen.

Teknik "Pixel Unshuffle" untuk Pemrosesan Cepat

Salah satu terobosan terbesar adalah penggunaan teknik yang disebut "pixel unshuffle".

Saat memproses gambar, model AI biasanya mengubah gambar menjadi serangkaian 'token' atau potongan informasi. Semakin banyak token, semakin lambat pemrosesannya. Teknik pixel unshuffle secara dinamis mengurangi jumlah token gambar tanpa kehilangan informasi penting, sehingga mempercepat pemrosesan secara dramatis.

Ini adalah salah satu rahasia di balik klaim kecepatan LFM2-VL.

Penanganan Resolusi Asli Tanpa Distorsi

Banyak model visi-bahasa memaksa gambar untuk diubah ukurannya menjadi format persegi, yang seringkali menyebabkan distorsi dan kehilangan detail. LFM2-VL mengambil pendekatan yang lebih cerdas. Ia memproses gambar pada resolusi aslinya hingga 512x512 piksel.

Jika gambar lebih besar, model akan membaginya menjadi beberapa patch 512x512 tanpa tumpang tindih, menjaga rasio aspek dan detail. Untuk varian 1.6B, model ini bahkan membuat thumbnail gambar keseluruhan yang diperkecil untuk memberikan pemahaman konteks global, sambil tetap menganalisis detail dari setiap patch.

Ini memastikan pemahaman visual yang akurat dan komprehensif.

Fleksibilitas Inferensi yang Adaptif

Liquid AI memahami bahwa tidak semua perangkat atau aplikasi memiliki kebutuhan yang sama. Oleh karena itu, LFM2-VL dirancang dengan fleksibilitas. Pengembang dapat menyesuaikan keseimbangan antara kecepatan dan kualitas pada saat inferensi dengan mengatur parameter seperti jumlah maksimum token gambar.

Ini memungkinkan aplikasi untuk beradaptasi secara real-time dengan kemampuan perangkat keras yang tersedia, memastikan pengalaman pengguna yang optimal di berbagai perangkat.

Bagaimana Performanya di Dunia Nyata? Hasil Benchmark

Sebuah model baru bisa memiliki arsitektur yang hebat, tetapi pembuktian utamanya terletak pada performa. LFM2-VL telah diuji pada serangkaian benchmark publik yang diakui secara luas, seperti RealWorldQA, MM-IFEval, dan OCRBench.

Hasilnya menunjukkan bahwa model ini memberikan performa yang sangat kompetitif, bahkan mampu menyaingi model yang jauh lebih besar seperti InternVL3 dan SmolVLM2 pada tugas-tugas tertentu. Perlu dicatat bahwa hasil benchmark dapat bervariasi tergantung pada konfigurasi pengujian, namun data yang dirilis menunjukkan tren yang sangat positif. Namun, keunggulan sebenarnya dari LFM2-VL bukanlah sekadar skor benchmark mentah, melainkan rasio performa-terhadap-efisiensi.

Ia mencapai hasil yang kompetitif dengan jejak memori yang jauh lebih kecil dan kecepatan pemrosesan yang jauh lebih tinggi. Inilah yang membuatnya menjadi pilihan ideal untuk aplikasi AI on-device, di mana sumber daya adalah faktor pembatas utama.

Ini adalah perwujudan sejati dari filosofi AI efisien.

Lebih dari Sekadar Model: Ekosistem Open-Weight dan Aksesibilitas

Salah satu aspek paling menarik dari rilis ini adalah komitmen Liquid AI terhadap aksesibilitas.

Kedua varian LFM2-VL dirilis sebagai model open-weight di bawah lisensi berbasis Apache 2.0. Istilah 'open-weight' berarti bobot atau 'pengetahuan' dari model yang telah dilatih tersedia secara bebas untuk diunduh, digunakan, dan dimodifikasi oleh komunitas riset dan pengembang komersial. Langkah ini secara signifikan mendemokratisasi akses ke teknologi multimodal AI canggih.

Pengembang individu, startup, dan peneliti kini dapat bereksperimen dan membangun produk di atas fondasi yang kuat tanpa biaya lisensi yang mahal. Model-model ini tersedia untuk diunduh melalui repositori populer Hugging Face Liquid AI, yang merupakan pusat bagi komunitas AI. Informasi lebih detail dan teknis juga dapat ditemukan di blog resmi mereka.

Selain itu, LFM2-VL terintegrasi secara mulus dengan pustaka Hugging Face Transformers yang populer, membuatnya mudah untuk diimplementasikan.

Model ini juga mendukung kuantisasi, sebuah proses yang lebih lanjut mengurangi ukuran model dan kebutuhan komputasi, yang sangat penting untuk penerapan pada perangkat keras edge dengan spesifikasi rendah.

Kasus Penggunaan Praktis: Membawa Multimodal AI ke Kehidupan Sehari-hari

Dengan kemampuan dan efisiensinya, LFM2-VL membuka pintu bagi berbagai aplikasi inovatif yang sebelumnya tidak praktis.

Berikut adalah beberapa contoh bagaimana model visi-bahasa ini dapat mengubah interaksi kita dengan teknologi: Asisten Seluler Cerdas: Bayangkan mengarahkan kamera ponsel Anda ke sebuah monumen dan bertanya, "Ceritakan tentang sejarah bangunan ini." Asisten Anda, didukung oleh LFM2-VL, dapat langsung menganalisis gambar dan memberikan jawaban yang relevan, semuanya tanpa koneksi internet.

Alat Bantu Aksesibilitas: Aplikasi untuk penyandang tunanetra dapat menggunakan model ini untuk mendeskripsikan lingkungan sekitar secara real-time, membaca teks dari objek, atau mengidentifikasi produk di rak toko. Robotika dan Otomasi: Robot di gudang atau di rumah dapat menggunakan LFM2-VL untuk memahami instruksi verbal yang berkaitan dengan objek visual.

Misalnya, "Ambil kotak biru di atas meja." Kamera Pintar dan IoT: Kamera keamanan dapat melakukan lebih dari sekadar merekam.

Dengan AI on-device, ia dapat memahami apa yang terjadi, seperti "memberi tahu jika ada paket yang diantar" atau "mendeteksi jika gerbang dibiarkan terbuka." * Pencarian Visual Interaktif: Alih-alih mengetik, Anda bisa mengambil foto suatu barang dan bertanya, "Di mana saya bisa membeli sepatu seperti ini?" Model visi-bahasa akan memahami objek dan membantu Anda mencarinya.

Kehadiran LFM2-VL dari Liquid AI bukan hanya sebuah kemajuan inkremental. Ini adalah langkah transformatif yang memberdayakan pengembang untuk membangun generasi berikutnya dari aplikasi AI yang benar-benar terintegrasi ke dalam kehidupan kita. Dengan menghilangkan ketergantungan pada cloud dan memprioritaskan efisiensi, teknologi open-weight ini menetapkan standar baru untuk apa yang mungkin dicapai dengan AI on-device.

Masa depan AI tidak lagi hanya berada di pusat data yang jauh, tetapi sudah ada di sini, di saku kita, siap untuk memahami dan berinteraksi dengan dunia di sekitar kita.

Apa Reaksi Anda?

Suka Suka 0
Tidak Suka Tidak Suka 0
Cinta Cinta 0
Lucu Lucu 0
Marah Marah 0
Sedih Sedih 0
Wow Wow 0