Skor Lebih Tinggi dari Riset Swasta, OpenAI Manipulasi Penilaian Model o3?

Leo Dwi Jatmiko
Senin, 21 April 2025 | 08:10 WIB
Ilustrasi Logo OpenAI/Reuters
Ilustrasi Logo OpenAI/Reuters
Bagikan

Bisnis.com, JAKARTA — OpenAI, perusahaan yang berfokus dalam pengembangan model kecerdasan buatan (AI), menjadi sorotan. Perusahaan milik Sam Altman itu menghadirkan data pengukuran yang berbeda dengan lembaga pengukuran independent terkait model o3.

Ketika OpenAI meluncurkan o3 pada  Desember, perusahaan mengklaim model tersebut dapat menjawab lebih dari seperempat pertanyaan di FrontierMath, serangkaian soal matematika yang menantang. Skor tersebut mengalahkan pesaingnya — model terbaik berikutnya hanya berhasil menjawab sekitar 2% soal FrontierMath dengan benar.

"Saat ini, semua penawaran di luar sana memiliki kurang dari 2% [di FrontierMath]… Kami melihat [secara internal], dengan o3 dalam pengaturan komputasi waktu pengujian yang agresif, kami dapat memperoleh lebih dari 25%,”  kata Mark Chen, kepala peneliti di OpenAI, selama siaran langsung dikutip dari Techcrunch, Senin (21/4/2025). 

Pernyataan tersebut kemudian menjadi sorotan setelah ditemukan fakta bahwa angka yang disampaikan OpenAI adalah batas atas, yang dicapai oleh versi o3 dengan komputasi yang lebih baik daripada model yang diluncurkan OpenAI secara publik minggu lalu. 

Epoch AI, lembaga penelitian di balik FrontierMath, merilis hasil uji benchmark independen o3 pada hari Jumat. Epoch menemukan bahwa o3 memperoleh skor sekitar 10%, jauh di bawah skor tertinggi yang diklaim OpenAI.

Epoch menambahkan meski terjadi perbedaan Epoch AI menilai hasil benchmark yang dipublikasikan perusahaan pada  Desember menunjukkan skor batas bawah yang sesuai dengan skor yang diamati Epoch. 

Epoch juga mencatat bahwa pengaturan pengujiannya kemungkinan berbeda dari OpenAI, dan bahwa mereka menggunakan rilis FrontierMath yang diperbarui untuk evaluasinya.

“Perbedaan antara hasil kami dan OpenAI mungkin disebabkan oleh OpenAI yang mengevaluasi dengan perancah internal yang lebih kuat, menggunakan lebih banyak waktu pengujian [komputasi], atau karena hasil tersebut dijalankan pada subset FrontierMath yang berbeda (180 soal dalam frontiermath-2024-11-26 vs 290 soal dalam frontiermath-2025-02-28-private),” tulis Epoch.

Menurut sebuah posting di X dari ARC Prize Foundation, sebuah organisasi yang menguji versi pra-rilis o3, model o3 publik “adalah model yang berbeda […] yang disesuaikan untuk penggunaan obrolan/produk,” yang menguatkan laporan Epoch. "Semua tingkatan komputasi o3 yang dirilis lebih kecil daripada versi yang kami [uji]," tulis ARC Prize. Secara umum, tingkatan komputasi yang lebih besar diharapkan dapat mencapai skor uji yang lebih baik.

Simak berita lainnya seputar topik artikel ini di sini:

Penulis : Leo Dwi Jatmiko
Editor : Leo Dwi Jatmiko
Bagikan

Artikel Terkait

Berita Lainnya

Berita Terkini

Nyaman tanpa iklan. Langganan BisnisPro

Nyaman tanpa iklan. Langganan BisnisPro

Terpopuler

Topik-Topik Pilihan

Nyaman tanpa iklan. Langganan BisnisPro

Nyaman tanpa iklan. Langganan BisnisPro

Rekomendasi Kami

Scan QR Code Bisnis Indonesia e-paper