Katakan lagi? AI memberikan kata terbaru dalam audio yang lebih jernih
Spotlight

Katakan lagi? AI memberikan kata terbaru dalam audio yang lebih jernih


Kredit: Domain Publik Unsplash / CC0

Jika Anda telah mendengarkan lebih banyak podcast saat terjebak di rumah tahun ini, Anda mungkin telah memperhatikan efek samping dari peningkatan percakapan virtual: penurunan kualitas audio. Wawancara yang dilakukan melalui telepon atau obrolan video sering kali mencakup kebisingan latar belakang, gema, dan distorsi.

Sekarang, metode baru yang dikembangkan sebagian oleh para peneliti di Universitas Princeton dapat meningkatkan pengalaman mendengarkan di era COVID dan seterusnya. Menggunakan pendekatan kecerdasan buatan (AI) yang dikenal sebagai pembelajaran mendalam, teknik ini dapat mengubah rekaman suara manusia berkualitas rendah, mendekati kejernihan dan kejernihan suara rekaman studio.

Sementara metode berbasis AI lainnya untuk meningkatkan rekaman ucapan umumnya menangani satu aspek kualitas audio, seperti menyaring kebisingan latar belakang atau menghilangkan reverb, metode ini lebih merupakan alat all-in-one. Pada akhirnya, para peneliti berharap untuk menerapkan kerangka kerja mereka untuk memungkinkan peningkatan kemampuan bicara real-time yang sepenuhnya otomatis.

“Pendekatan sebelumnya sebagian besar berfokus pada peningkatan kejelasan ucapan, tetapi ini dapat membuat pengalaman mendengarkan menjadi lebih datar, sehingga kualitas yang dihasilkan tidak terlalu bagus untuk mendengarkan,” kata Jiaqi Su, seorang mahasiswa pascasarjana dalam ilmu komputer dan penulis utama makalah. mendeskripsikan metode yang oleh peneliti disebut HiFi-GAN.

HiFi-GAN menggunakan jaringan saraf tiruan, alat utama pembelajaran mendalam yang meniru arsitektur neuron biologis yang saling berhubungan. Dalam sistem ini, dua jaringan terpisah bersaing untuk meningkatkan kualitas audio. Satu jaringan, yang disebut generator, menghasilkan rekaman pembicaraan yang dibersihkan. Jaringan lain, yang disebut diskriminator, menganalisis rekaman untuk mencoba menentukan apakah rekaman itu benar-benar berkualitas studio atau audio yang telah dibersihkan oleh generator. Persaingan antara jaringan adversarial generatif (GAN) ini meningkatkan kemampuan metode untuk menghasilkan audio yang jernih.

Jaringan generator dan diskriminator terlibat dalam semacam perlombaan senjata. “Tugas generator adalah mencoba mengelabui pembeda,” kata rekan penulis Adam Finkelstein, seorang profesor ilmu komputer. “Keduanya beranjak naik, masing-masing menjadi semakin efektif selama pelatihan. Ketika proses itu selesai, Anda dapat membuang pembeda dan apa yang Anda miliki adalah generator yang luar biasa.”

Untuk mengevaluasi rekaman yang dihasilkan oleh HiFi-GAN, peneliti menggunakan beberapa ukuran kualitas audio yang obyektif. Mereka juga beralih ke platform crowdsourcing Amazon Mechanical Turk untuk mengumpulkan penilaian subjektif dari pendengar manusia, yang menilai hasil HiFi-GAN dan algoritme peningkatan kualitas audio lainnya. Dalam 28.000 peringkat rekaman pendengar di Amazon Mechanical Turk, HiFi-GAN mendapat skor lebih tinggi daripada lima metode lain untuk meningkatkan kualitas audio.

“Masalah yang biasa kami amati dalam eksperimen adalah bahwa metrik obyektif tidak sepenuhnya berkorelasi dengan persepsi manusia, jadi sangat mungkin metode Anda mendapat skor lebih tinggi tetapi sebenarnya menghasilkan pengalaman mendengarkan yang lebih buruk. Itu sebabnya kami juga melakukan evaluasi subjektif,” kata Su.

Dalam pekerjaan terkait, grup Finkelstein dan yang lainnya mengembangkan metrik objektif untuk mendeteksi dan mengukur perbedaan halus dalam rekaman audio yang dapat dilihat oleh telinga manusia tetapi telah menjadi tantangan untuk ditangani oleh algoritme AI. Metrik ini, yang dilatih pada sekitar 55.000 penilaian manusia yang dikumpulkan di Amazon Mechanical Turk, dapat meningkatkan kinerja peningkat kualitas audio seperti HiFi-GAN, serta membantu evaluasi metode pembelajaran mendalam untuk memproses rekaman audio secara lebih luas.

Kredit: Universitas Princeton

Makalah ini mengemukakan metrik baru untuk alat pembelajaran mesin yang menilai kualitas audio atau membandingkan rekaman audio. Metode ini dibangun di atas pendekatan pembelajaran adversarial yang sudah ada di mana generator dan jaringan diskriminator bersaing untuk meningkatkan keluaran algoritme. Metrik tersebut dapat menentukan, misalnya, seberapa dekat rekaman audio yang dihasilkan AI dengan referensi, rekaman berkualitas studio.

“Kami ingin menemukan metrik persepsi yang terkait dengan manusia,” kata Pranay Manocha, seorang mahasiswa pascasarjana ilmu komputer dan penulis utama penelitian tersebut. “Misalnya, jika kami memutar dua rekaman dan kemudian menanyakan apakah keduanya sama persis atau berbeda, metrik kami dapat memberikan jawaban yang berkorelasi dengan penilaian yang dibuat oleh manusia.”

Meskipun ada banyak metrik seperti itu dalam pemrosesan audio, metode ini meningkatkannya dengan mendeteksi perbedaan kecil, yang oleh para peneliti disebut “hanya terlihat”, seperti perubahan halus pada nada frekuensi tinggi yang bukan merupakan komponen utama ucapan.

“Pembelajaran mendalam telah memiliki dampak besar dalam pemrosesan audio, dan kami berharap ini akan menjadi lebih mendalam” dalam dekade mendatang, kata Finkelstein, “tetapi ada masalah besar, yang sedikit esoteris: Untuk mesin untuk belajar , ia perlu mengetahui seberapa baik kinerjanya… ia membutuhkan sesuatu yang disebut fungsi kerugian. “

Dalam mendesain fungsi loss yang baik, “kami membutuhkan metode otomatis penuh untuk menentukan apakah manusia akan mengatakan dua klip audio terdengar mirip satu sama lain,” kata Finkelstein. “Tidak praktis untuk menanyakan pertanyaan itu kepada manusia” sambil melatih jaringan saraf “, karena itu akan melibatkan pengajuan trilyunan pertanyaan kepada manusia sementara algoritme mencari solusi yang baik. Jadi, kami sedang mengembangkan metode otomatis untuk memprediksi bagaimana manusia akan menjawabnya. pertanyaan.”

Su dan Manocha mempresentasikan makalah yang menjelaskan proyek-proyek ini di INTERSPEECH, sebuah konferensi internasional yang berfokus pada pemrosesan dan aplikasi pidato, yang diadakan sepenuhnya pada bulan Oktober ini.

Baik HiFi-GAN dan metrik perbedaan yang terlihat menawarkan pendekatan umum yang dapat digunakan untuk berbagai tugas pemrosesan audio. Para peneliti sekarang mengadaptasi metode mereka menuju peningkatan kemampuan bicara real-time, yang berpotensi dapat digunakan selama percakapan Zoom atau webinar.

Tim juga menambahkan kemampuan untuk ekstensi bandwidth ke HiFi-GAN. Ini akan menciptakan kembali pengalaman pendengar “rasa kehadiran” dari rekaman yang dibuat pada tingkat sampel tinggi, yang sering hilang dari rekaman audio tingkat konsumen dan panggilan konferensi online, kata Finkelstein.

Su, Finkelstein, dan lainnya adalah rekan penulis makalah “HiFi-GAN: Denoising dan Dereverberasi Kesetiaan Tinggi Berdasarkan Fitur Pidato Mendalam di Jaringan Adversarial.” Rekan penulis makalah “Metrik Audio Perseptual yang Dapat Dibedakan yang Dipelajari dari Perbedaan yang Hanya Terlihat” termasuk Manocha dan Finkelstein.


Google berjanji untuk berbuat lebih banyak untuk melindungi data suara Anda


Informasi lebih lanjut:
HiFi-GAN: Denoising dan Dereverberasi Fidelitas Tinggi Berdasarkan Fitur Pidato Mendalam di Jaringan Adversarial. pixl.cs.princeton.edu/pubs/Su_2020_HiFi/

Metrik Audio Perseptual yang Dapat Dibedakan yang Dipelajari dari Perbedaan yang Hanya Terlihat. pixl.cs.princeton.edu/pubs/Manocha_2020_ADP/

Disediakan oleh Universitas Princeton

Kutipan: Katakan lagi? AI memberikan kata terbaru dalam audio yang lebih jernih (2020, 18 Desember), diakses pada 18 Desember 2020 dari https://techxplore.com/news/2020-12-ai-latest-word-clearer-audio.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.


Halaman Ini Di Persembahkan Oleh : Pengeluaran SGP Hari Ini