Bisnis.com, JAKARTA — OpenAI, perusahaan yang berfokus dalam pengembangan model kecerdasan buatan (AI), menjadi sorotan. Perusahaan milik Sam Altman itu menghadirkan data pengukuran yang berbeda dengan lembaga pengukuran independent terkait model o3.
Ketika OpenAI meluncurkan o3 pada Desember, perusahaan mengklaim model tersebut dapat menjawab lebih dari seperempat pertanyaan di FrontierMath, serangkaian soal matematika yang menantang. Skor tersebut mengalahkan pesaingnya — model terbaik berikutnya hanya berhasil menjawab sekitar 2% soal FrontierMath dengan benar.
"Saat ini, semua penawaran di luar sana memiliki kurang dari 2% [di FrontierMath]… Kami melihat [secara internal], dengan o3 dalam pengaturan komputasi waktu pengujian yang agresif, kami dapat memperoleh lebih dari 25%,” kata Mark Chen, kepala peneliti di OpenAI, selama siaran langsung dikutip dari Techcrunch, Senin (21/4/2025).
Pernyataan tersebut kemudian menjadi sorotan setelah ditemukan fakta bahwa angka yang disampaikan OpenAI adalah batas atas, yang dicapai oleh versi o3 dengan komputasi yang lebih baik daripada model yang diluncurkan OpenAI secara publik minggu lalu.
Epoch AI, lembaga penelitian di balik FrontierMath, merilis hasil uji benchmark independen o3 pada hari Jumat. Epoch menemukan bahwa o3 memperoleh skor sekitar 10%, jauh di bawah skor tertinggi yang diklaim OpenAI.
OpenAI has released o3, their highly anticipated reasoning model, along with o4-mini, a smaller and cheaper model that succeeds o3-mini.
— Epoch AI (@EpochAIResearch) April 18, 2025
We evaluated the new models on our suite of math and science benchmarks. Results in thread! pic.twitter.com/5gbtzkEy1B
Epoch menambahkan meski terjadi perbedaan Epoch AI menilai hasil benchmark yang dipublikasikan perusahaan pada Desember menunjukkan skor batas bawah yang sesuai dengan skor yang diamati Epoch.
Epoch juga mencatat bahwa pengaturan pengujiannya kemungkinan berbeda dari OpenAI, dan bahwa mereka menggunakan rilis FrontierMath yang diperbarui untuk evaluasinya.
“Perbedaan antara hasil kami dan OpenAI mungkin disebabkan oleh OpenAI yang mengevaluasi dengan perancah internal yang lebih kuat, menggunakan lebih banyak waktu pengujian [komputasi], atau karena hasil tersebut dijalankan pada subset FrontierMath yang berbeda (180 soal dalam frontiermath-2024-11-26 vs 290 soal dalam frontiermath-2025-02-28-private),” tulis Epoch.
Menurut sebuah posting di X dari ARC Prize Foundation, sebuah organisasi yang menguji versi pra-rilis o3, model o3 publik “adalah model yang berbeda […] yang disesuaikan untuk penggunaan obrolan/produk,” yang menguatkan laporan Epoch. "Semua tingkatan komputasi o3 yang dirilis lebih kecil daripada versi yang kami [uji]," tulis ARC Prize. Secara umum, tingkatan komputasi yang lebih besar diharapkan dapat mencapai skor uji yang lebih baik.