Skor Lebih Tinggi dari Riset Swasta, OpenAI Manipulasi Penilaian Model o3?

Leo Dwi Jatmiko

Senin, 21 April 2025 | 08:10 WIB

Ilustrasi Logo OpenAI/Reuters

Bisnis.com, JAKARTA — OpenAI, perusahaan yang berfokus dalam pengembangan model kecerdasan buatan (AI), menjadi sorotan. Perusahaan milik Sam Altman itu menghadirkan data pengukuran yang berbeda dengan lembaga pengukuran independent terkait model o3.

Ketika OpenAI meluncurkan o3 pada Desember, perusahaan mengklaim model tersebut dapat menjawab lebih dari seperempat pertanyaan di FrontierMath, serangkaian soal matematika yang menantang. Skor tersebut mengalahkan pesaingnya — model terbaik berikutnya hanya berhasil menjawab sekitar 2% soal FrontierMath dengan benar.

"Saat ini, semua penawaran di luar sana memiliki kurang dari 2% [di FrontierMath]… Kami melihat [secara internal], dengan o3 dalam pengaturan komputasi waktu pengujian yang agresif, kami dapat memperoleh lebih dari 25%,” kata Mark Chen, kepala peneliti di OpenAI, selama siaran langsung dikutip dari Techcrunch, Senin (21/4/2025).

Baca Juga Netflix Uji Coba Pakai AI untuk Pencarian Film, Kerja Sama dengan OpenAI

Pernyataan tersebut kemudian menjadi sorotan setelah ditemukan fakta bahwa angka yang disampaikan OpenAI adalah batas atas, yang dicapai oleh versi o3 dengan komputasi yang lebih baik daripada model yang diluncurkan OpenAI secara publik minggu lalu.

Epoch AI, lembaga penelitian di balik FrontierMath, merilis hasil uji benchmark independen o3 pada hari Jumat. Epoch menemukan bahwa o3 memperoleh skor sekitar 10%, jauh di bawah skor tertinggi yang diklaim OpenAI.

OpenAI has released o3, their highly anticipated reasoning model, along with o4-mini, a smaller and cheaper model that succeeds o3-mini.

We evaluated the new models on our suite of math and science benchmarks. Results in thread! pic.twitter.com/5gbtzkEy1B
— Epoch AI (@EpochAIResearch) April 18, 2025

Epoch menambahkan meski terjadi perbedaan Epoch AI menilai hasil benchmark yang dipublikasikan perusahaan pada Desember menunjukkan skor batas bawah yang sesuai dengan skor yang diamati Epoch.

Baca Juga OpenAI Tingkatkan Fitur Memori ChatGPT, Apa Keunggulannya?

Epoch juga mencatat bahwa pengaturan pengujiannya kemungkinan berbeda dari OpenAI, dan bahwa mereka menggunakan rilis FrontierMath yang diperbarui untuk evaluasinya.

“Perbedaan antara hasil kami dan OpenAI mungkin disebabkan oleh OpenAI yang mengevaluasi dengan perancah internal yang lebih kuat, menggunakan lebih banyak waktu pengujian [komputasi], atau karena hasil tersebut dijalankan pada subset FrontierMath yang berbeda (180 soal dalam frontiermath-2024-11-26 vs 290 soal dalam frontiermath-2025-02-28-private),” tulis Epoch.

Menurut sebuah posting di X dari ARC Prize Foundation, sebuah organisasi yang menguji versi pra-rilis o3, model o3 publik “adalah model yang berbeda […] yang disesuaikan untuk penggunaan obrolan/produk,” yang menguatkan laporan Epoch. "Semua tingkatan komputasi o3 yang dirilis lebih kecil daripada versi yang kami [uji]," tulis ARC Prize. Secara umum, tingkatan komputasi yang lebih besar diharapkan dapat mencapai skor uji yang lebih baik.