Bisnis.com, JAKARTA — Model kecerdasan buatan (AI) terbaru milik Meta, Maverick, dikabarkan menunjukkan perbedaan antara versi yang diuji dalam arena pengujian dengan versi yang tersedia untuk pengembang.
Mengutip laporan TechCrunch, Senin (7/4/2025), Maverick menempati peringkat kedua di LM Arena, sebuah platform pengujian yang melibatkan penilaian manusia untuk membandingkan keluaran berbagai model bahasa (language model). Dalam pengujian tersebut, Meta menggunakan versi eksperimen obrolan dari Maverick.
Namun, sejumlah peneliti AI di platform X mengungkapkan bahwa versi Maverick yang digunakan dalam pengujian LM Arena tampaknya berbeda dari versi publik yang dapat diunduh oleh pengembang. Mereka mencatat bahwa pengujian di LM Arena menggunakan Llama 4 Maverick yang telah dioptimalkan khusus untuk percakapan.
Perbedaan tersebut terlihat dari perilaku model. Versi di LM Arena cenderung memberikan jawaban yang lebih panjang, lebih mendetail, dan disertai banyak emoji. Sebaliknya, versi publik menunjukkan performa dan karakteristik yang berbeda secara signifikan.
TechCrunch sebelumnya juga menulis bahwa LM Arena bukanlah tolok ukur yang sepenuhnya andal untuk mengukur performa model AI. Meski demikian, banyak perusahaan AI umumnya tidak melakukan penyesuaian khusus pada model mereka demi mendapatkan skor tinggi dalam pengujian tersebut.
Penyesuaian model untuk tolok ukur tertentu dapat menimbulkan masalah, termasuk menyulitkan pengembang dalam memprediksi perilaku model di luar konteks pengujian. Selain itu, hal ini dapat menimbulkan kesan yang menyesatkan terkait kemampuan sebenarnya dari model tersebut.
Meta dan Chatbot Arena, organisasi yang mengelola LM Arena, telah dihubungi untuk memberikan tanggapan atas dugaan perbedaan versi Maverick tersebut. Hingga kini, belum ada pernyataan resmi yang diberikan.