Mengenal Audiocraft, AI Besutan Meta Bisa Bikin Audio dan Musik dari Teks

Lydia Tesaloni Mangunsong

Kamis, 3 Agustus 2023 | 18:20 WIB

Mark Zuckerberg, pendiri Meta Platforms Inc./ Bloomberg

Bisnis.com, JAKARTA – Raksasa teknologi Meta mengambil langkah pertama dalam artificial intelligence (AI) generatif untuk audio dengan teknologi terbarunya, Audiocraft, sebuah set yang terdiri dari tiga model AI yang mampu secara otomatis membuat suara dari deskripsi teks.

Melalui situs blog resminya, Meta mengabarkan perilisan Audiocraft pada Rabu (2/8/2023) kemarin. Alat ini disokong oleh tiga model AI, yakni MusicGen, AudioGen, dan EnCodec.

Meta menjelaskan, MusicGen yang telah dilatih dengan total durasi 20.000 jam rekaman milik Meta akan menghasilkan musik sesuai deskripsi teks yang telah dimasukkan.

Baca Juga Isi Kesepakatan Bersama Raksasa Teknologi Soal Pengembangan AI

Sementara itu, AudioGen yang dilatih dengan data publik akan fokus menghasilkan efek suara. Kemudian, EnCodec akan mendekompresi sinyal audio dengan fidelitas tinggi.

Lewat teknologinya ini, Meta berharap setiap orang dapat bereksperimen menyusun instrumen tanpa harus memainkan alat musik apapun, melainkan hanya dengan suara yang dibuat komputer.

“Itulah janji AudioCraft, alat AI terbaru kami yang menghasilkan audio berkualitas tinggi dan realistis dari musik dan teks.” Demikian tertulis dalam unggahan blog resmi Meta.

Baca Juga Amazon Kucurkan Investasi Rp1,5 Triliun untuk Pengembangan AI

Meta mengonfirmasi bahwa AudioCraft adalah open source software atau perangkat lunak sumber terbuka. Semua orang dapat mengaksesnya melalui situs github.com/facebookresearch/audiocraft.

Sementara itu, perangkat lunak yang diperlukan untuk membuat dan melatih model serta menjalankan inferensi, tersedia di bawah lisensi sumber terbuka MIT. Kode ini dapat digunakan secara gratis dan aplikasi komersial serta proyek penelitian.

Saat ini, AudioCraft telah memiliki sejumlah sampel musik dan efek suara yang tersedia untuk didengarkan di postingan blog. Seluruhnya masih terdengar klasik, kemungkinan untuk menghindari masalah hukum.

Perusahaan mengaku AudioCraft membutuhkan sumber terbuka untuk menambah keragaman data yang digunakan untuk melatihnya.

“Secara khusus, dataset musik yang digunakan mengandung porsi yang lebih besar dari musik gaya Barat dan hanya berisi pasangan audio-teks dengan teks dan metadata yang ditulis dalam bahasa Inggris,” tulis Meta.

“Dengan membagikan kode untuk AudioCraft, kami berharap peneliti lain dapat lebih mudah menguji pendekatan baru untuk membatasi atau menghilangkan potensi bias dan penyalahgunaan model generatif.”

Kehadiran AI generatif untuk audio akan memperoleh banyak sorotan setelah masif digunakan nanti, jika berkaca pada AI generatif teks yang menuai sejumlah gugatan untuk hak cipta.