Bisnis.com, JAKARTA — Amazon meluncurkan model kecerdasan buatan (AI) generatif terbaru mereka, Nova Sonic. Model ini dirancang untuk memproses suara secara native dan menghasilkan ucapan yang terdengar alami.
Melansir dari Techcruch, Rabu (9/4/2025), Nova Sonic hadir sebagai jawaban Amazon terhadap model suara AI terbaru yang dinilai lebih alami dibandingkan model-model suara awal seperti Amazon Alexa.
Terobosan teknologi ini menjadikan asisten digital lama, termasuk Alexa dan Siri dari Apple terasa kaku jika dibandingkan dengan model baru ini.
Model suara Nova Sonic dapat diakses melalui Bedrock, platform pengembang Amazon untuk aplikasi AI perusahaan, melalui API streaming dua arah yang baru.
Dalam siaran pers, Amazon menyebut, Nova Sonic sebagai model suara AI yang paling hemat biaya di pasaran, dengan biaya sekitar 80% lebih rendah dibandingkan GPT-4o OpenAI.
Senior Vice President dan Kepala Ilmuwan AGI Amazon Rohit Prasad mengatakan bahwa komponen Nova Sonic telah terintegrasi dengan Alexa+, versi yang lebih canggih dari asisten suara digital Amazon.
Dalam wawancaranya dengan TechCrunch, Prasad menjelaskan bahwa Nova Sonic dibangun di atas keahlian Amazon dalam sistem orkestrasi besar yang menjadi dasar untuk pengembangan Alexa.
Salah satu keunggulan Nova Sonic adalah kemampuannya dalam mengarahkan permintaan pengguna ke berbagai API, yang memungkinkan model ini mengetahui kapan perlu mengambil informasi waktu nyata dari internet, menggunakan sumber data internal, atau berinteraksi dengan aplikasi eksternal.
Nova Sonic juga unggul dalam memahami percakapan dua arah. Selama interaksi, model ini bisa menunggu untuk berbicara "pada waktu yang tepat", dengan memperhitungkan jeda dan interupsi pembicara. Selain itu, Nova Sonic menghasilkan transkrip teks dari ucapan pengguna yang bisa digunakan oleh pengembang dalam berbagai aplikasi.
Keunggulan lainnya, Nova Sonic lebih tahan terhadap kesalahan pengenalan ucapan dibandingkan dengan model suara AI lainnya.
Amazon mengeklaim bahwa model ini lebih baik dalam memahami maksud pengguna meski mereka berbicara terburu-buru, salah ucap, atau berada di lingkungan bising.
Pada tolok ukur Multilingual LibriSpeech, Nova Sonic mencatatkan rasio kesalahan kata (WER) hanya 4,2% untuk bahasa Inggris, Prancis, Italia, Jerman, dan Spanyol.
Hal ini menunjukkan bahwa hanya sekitar empat kata dari setiap 100 kata yang diucapkan model ini yang berbeda dari transkripsi manusia.
Dalam tolok ukur Augmented Multi Party Interaction, yang mengukur interaksi keras dengan banyak peserta, Nova Sonic lebih akurat 46,7% dibandingkan model transkripsi GPT-4o OpenAI.
Selain itu, Nova Sonic memiliki latensi terdepan di industri, dengan respons rata-rata 1,09 detik, lebih cepat daripada model GPT-4o yang membutuhkan waktu 1,18 detik untuk merespons.
Prasad juga menjelaskan bahwa peluncuran Nova Sonic merupakan bagian dari strategi Amazon yang lebih luas untuk membangun AGI (artificial general intelligence), sebuah sistem AI yang dapat melakukan segala hal yang bisa dilakukan manusia di komputer.
Ke depannya, Amazon berencana untuk merilis lebih banyak model AI yang mampu memahami berbagai modalitas, seperti gambar, video, suara, dan data sensorik lainnya, serta mengintegrasikan teknologi ini ke dalam dunia fisik.