Llama 3.2: Model AI Multimodal Meta yang Memahami Gambar & Teks

Senin, 30 September 2024 06:05

Meta meluncurkan Llama 3.2, model bahasa besar multimodal open source yang memahami gambar dan teks. Model AI ini bersaing dengan GPT-4o Mini dalam kemampuan visual, dan menawarkan fitur seperti pemahaman gambar dan panjang konteks yang tinggi. Pelajari lebih lanjut tentang Llama 3.2.

Ilustrasi Llama 3.2 © copyright Markus Winkler - Pexels

Meta, perusahaan induk Facebook, Instagram, dan WhatsApp, telah merilis model bahasa besar (LLM) terbarunya, Llama 3.2. Model AI ini merupakan pesaing utama dari GPT-4o Mini milik OpenAI dalam hal kemampuan memahami gambar dan teks. Llama 3.2 juga menonjol sebagai model AI open-source yang unggul dibandingkan model AI open-source lainnya seperti Gemma milik Google dan Phi 3.5-mini milik Microsoft.

Llama 3.2: Pesaing GPT-4o Mini dalam Pemahaman Visual

Llama 3.2 telah mengalami perkembangan signifikan sejak versi sebelumnya, dan diklaim setara dengan GPT-4o Mini dalam kemampuan mengenali gambar dan memahami visual. CEO Meta, Mark Zuckerberg, menyatakan bahwa model ini unggul dalam berbagai aspek seperti mengikuti instruksi, meringkas, menggunakan alat, dan menyusun ulang perintah.

Llama 3.2: Model AI Multimodal Open-Source Pertama dari Meta

Dengan kemampuan memahami gambar dan teks, Llama 3.2 membuka peluang baru bagi berbagai aplikasi yang membutuhkan pemahaman visual. Ini juga merupakan model multimodal sumber terbuka pertama yang diluncurkan oleh Meta.

Fitur-Fitur Unggulan Llama 3.2:

Berikut adalah beberapa fitur utama dari Llama 3.2:

Open Source: Seperti pendahulunya, Llama 3.2 tersedia secara open-source. Ini memungkinkan pengembang untuk menggunakannya secara bebas dan gratis.

Ukuran Model: Llama 3.2 hadir dalam dua versi: model kecil dengan 11 miliar parameter dan model sedang dengan 90 miliar parameter. Model dengan parameter lebih tinggi umumnya lebih akurat dan mampu menangani tugas yang lebih kompleks.

Panjang Konteks: Llama 3.2 memiliki panjang konteks 128.000 token, memungkinkan pengguna untuk memasukkan teks yang cukup banyak (setara dengan ratusan halaman buku teks).

Pemahaman Gambar: Model Llama 3.2 dengan parameter 11B dan 90B mampu memahami diagram dan grafik, memberikan keterangan pada gambar, dan menentukan objek dari deskripsi bahasa alami. Sebagai contoh, pengguna dapat bertanya pada bulan mana perusahaan mengalami penjualan terbaik, dan model akan memberikan jawaban berdasarkan grafik yang tersedia. Model dengan parameter lebih besar juga dapat mengekstrak detail dari gambar untuk membuat teks.

Aksesibilitas Llama 3.2:

Model Llama 3.2 tersedia untuk diunduh di llama.com, Hugging Face, dan platform mitra Meta.

Kesimpulan:

Dengan peluncuran Llama 3.2, Meta menunjukkan komitmennya untuk mendorong inovasi dalam bidang AI. Model AI open-source ini menjanjikan berbagai kemungkinan bagi pengembangan aplikasi yang memerlukan pemahaman visual dan kemampuan pengolahan teks yang canggih. Llama 3.2 siap untuk menjadi kekuatan utama dalam pengembangan AI multimodal di masa depan.

Artikel terkait

AI & Programmer: Masa Depan Pekerjaan Semakin Cerah - Bukan Ancaman!
10 Ponsel Android Terbaik Berdasarkan Performa (Agustus 2024)
Cara Mudah Screenshot Komputer: Windows & Mac
Cara Masuk Akun Telegram: Panduan Lengkap untuk HP & Komputer
Apple Intelligence: Siap Luncurkan, Pastikan Ruang Penyimpanan Cukup!
Ponsel Boba Terbaik: Kamera Bulat Mirip iPhone, Harga Terjangkau!
Cara Cepat Akses Folder Screenshot di Google Photos
Akun WhatsApp Disadap? Waspada & Amankan Sekarang!
Windows App: Akses Windows di Semua Platform
Menu Insert Word: Panduan Lengkap & Cara Menggunakannya
Temukan WhatsApp Channel Lebih Mudah: Fitur Baru Pencarian!
Edit Pesan WhatsApp: Batas Waktu 15 Menit & Cara Mengedit