Ilmu saraf kognitif dapat membuka jalan bagi robot yang cerdas secara emosional
Robotics

Ilmu saraf kognitif dapat membuka jalan bagi robot yang cerdas secara emosional


Gambar 1. Ekstraksi fitur multi-resolusi modulation-filtered cochleagram (MMCG). Panel kiri menunjukkan proses mengekstraksi isyarat modulasi temporal dari ujung depan pendengaran, sedangkan panel kanan menunjukkan kokleagram modulasi-filter (MCG1-MCG4) pada empat resolusi berbeda. Kredit: Institut Sains dan Teknologi Lanjutan Jepang

Manusia memiliki kemampuan untuk mengenali emosi orang lain. Meskipun sangat mampu berkomunikasi dengan manusia melalui ucapan, robot dan agen virtual hanya pandai memproses instruksi logis, yang sangat membatasi interaksi manusia-robot (HRI). Akibatnya, banyak penelitian di HRI adalah tentang pengenalan emosi dari ucapan. Tapi pertama-tama, bagaimana kita menggambarkan emosi?

Emosi kategoris seperti kebahagiaan, kesedihan, dan kemarahan dipahami dengan baik oleh kami, tetapi mungkin sulit bagi robot untuk mencatatnya. Para peneliti telah berfokus pada “emosi dimensional”, yang merupakan transisi emosional bertahap dalam ucapan alami. “Emosi dimensi berkelanjutan dapat membantu robot menangkap dinamika waktu dari keadaan emosi pembicara dan menyesuaikan cara interaksi dan kontennya secara real time,” jelas Prof. Masashi Unoki dari Japan Advanced Institute of Science and Technology (JAIST), yang bekerja tentang pengenalan dan pemrosesan ucapan.

Penelitian telah menunjukkan bahwa model persepsi pendengaran yang mensimulasikan kerja telinga manusia dapat menghasilkan apa yang disebut “isyarat modulasi temporal” yang dengan tepat menangkap dinamika waktu emosi dimensional. Jaringan saraf kemudian dapat digunakan untuk mengekstrak fitur dari isyarat yang mencerminkan dinamika waktu ini. Namun, karena kompleksitas dan variasi model persepsi auditori, ekstraksi fitur ternyata cukup menantang.

Dalam studi baru yang diterbitkan di Jaringan Neural, Prof. Unoki dan rekan-rekannya, termasuk Zhichao Peng, dari Universitas Tianjin, Tiongkok (yang memimpin penelitian), Jianwu Dang dari Laboratorium Pengcheng, Tiongkok, dan Prof. Masato Akagi dari JAIST, kini telah mengambil inspirasi dari sebuah temuan baru-baru ini di bidang kognitif. ilmu saraf menyarankan bahwa otak kita membentuk beberapa representasi suara alam dengan derajat spektral yang berbeda (yaitu, frekuensi) dan resolusi temporal melalui analisis gabungan modulasi spektral-temporal.

Ilmu saraf kognitif dapat membuka jalan bagi robot yang cerdas secara emosional

Gambar 2. Arsitektur jaringan LSTM paralel untuk pengenalan emosi dimensional. Jaringan LSTM paralel mengambil fitur MMCG dengan resolusi berbeda dan menghasilkan keluaran yang digabungkan bersama dan kemudian dikirim ke lapisan LSTM penggabungan dan lapisan padat untuk menghasilkan urutan valensi (V) dan gairah (A). Kredit: Institut Sains dan Teknologi Lanjutan Jepang

Oleh karena itu, para peneliti telah mengusulkan fitur baru yang disebut kokleagram multi-resolusi modulasi-filter (MMCG), yang menggabungkan empat kokleagram yang difilter-modulasi (representasi frekuensi-waktu dari suara input) pada resolusi yang berbeda untuk mendapatkan isyarat modulasi temporal dan kontekstual. Untuk menjelaskan keragaman kokleagram, para peneliti merancang arsitektur jaringan saraf paralel yang disebut “memori jangka pendek” (LSTM), yang memodelkan variasi waktu sinyal multi-resolusi dari kokleagram dan melakukan eksperimen ekstensif pada dua kumpulan data pidato spontan.

Hasilnya menggembirakan. Para peneliti menemukan bahwa MMCG menunjukkan kinerja pengenalan emosi yang jauh lebih baik daripada fitur berbasis akustik tradisional dan fitur berbasis pendengaran lainnya untuk kedua dataset. Lebih lanjut, jaringan LSTM paralel menunjukkan prediksi emosi dimensional yang lebih unggul daripada dengan pendekatan berbasis LSTM biasa.

Prof. Unoki sangat senang dan mempertimbangkan untuk meningkatkan fitur MMCG dalam penelitian di masa mendatang. “Tujuan kami berikutnya adalah menganalisis ketahanan sumber kebisingan lingkungan dan menyelidiki fitur kami untuk tugas lain, seperti pengenalan emosi kategoris, pemisahan ucapan, dan deteksi aktivitas suara,” tutupnya.


Kedengarannya familier: Framework yang dapat dikontrol identitas speaker untuk terjemahan ucapan mesin


Informasi lebih lanjut:
Zhichao Peng dkk. Fitur kokleagram multi-resolusi modulasi-filter untuk pengenalan emosi dimensi berbasis LSTM dari ucapan, Jaringan Neural (2021). DOI: 10.1016 / j.neunet.2021.03.027

Disediakan oleh Japan Advanced Institute of Science and Technology

Kutipan: Ilmu saraf kognitif dapat membuka jalan bagi robot yang cerdas secara emosional (2021, 28 April) diambil 28 April 2021 dari https://techxplore.com/news/2021-04-cognitive-neuroscience-pave-emotionally-intelligent.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten tersebut disediakan untuk tujuan informasi saja.


Halaman Ini Di Persembahkan Oleh : Data SGP 2020