Studi baru menguji pembelajaran mesin pada deteksi kata pinjaman dalam bahasa dunia
Computer

Studi baru menguji pembelajaran mesin pada deteksi kata pinjaman dalam bahasa dunia


Peminjaman leksikal sangat meluas dan dapat memengaruhi bahkan kata-kata yang memainkan peran penting dalam kehidupan kita sehari-hari. ‘Gunung’ dalam bahasa Inggris, misalnya, dipinjam dari bahasa Prancis Kuno, bersama dengan banyak kata lainnya. Kredit: Daftar Johann-Mattis, Hans Sell

Para peneliti dari Pontificia Universidad Católica del Perú dan Institut Max Planck untuk Ilmu Sejarah Manusia telah menyelidiki kemampuan algoritme pembelajaran mesin untuk mengidentifikasi pinjaman leksikal menggunakan daftar kata dari satu bahasa. Hasil dipublikasikan di jurnal PLOS ONE menunjukkan bahwa metode pembelajaran mesin saat ini saja tidak cukup untuk mendeteksi peminjaman, memastikan bahwa data tambahan dan pengetahuan ahli diperlukan untuk mengatasi salah satu tantangan paling mendesak linguistik historis.

Peminjaman leksikal, atau transfer langsung kata-kata dari satu bahasa ke bahasa lain, telah menarik para ilmuwan selama ribuan tahun, sebagaimana dibuktikan dalam dialog Kratylos Plato, di mana Socrates membahas tantangan yang dipaksakan oleh kata-kata pinjaman pada studi etimologis. Dalam linguistik historis, pinjaman leksikal membantu peneliti melacak evolusi bahasa modern dan menunjukkan kontak budaya antara kelompok linguistik yang berbeda — entah baru atau kuno. Namun, teknik untuk mengidentifikasi kata-kata pinjaman telah menolak formalisasi, menuntut peneliti mengandalkan berbagai informasi proxy dan perbandingan berbagai bahasa.

“Deteksi otomatis pinjaman leksikal masih menjadi salah satu tugas tersulit yang kami hadapi dalam linguistik historis komputasi,” kata Johann-Mattis List, yang memimpin penelitian tersebut.

Dalam studi saat ini, para peneliti dari PUCP dan MPI-SHH menggunakan teknik pembelajaran mesin yang berbeda untuk melatih model bahasa yang meniru cara ahli bahasa mengidentifikasi pinjaman ketika mempertimbangkan hanya bukti yang diberikan oleh satu bahasa: jika suara atau cara gabungan suara untuk membentuk kata-kata tidak lazim saat membandingkannya dengan kata lain dalam bahasa yang sama, hal ini sering kali menjadi petunjuk untuk pinjaman baru-baru ini. Model-model tersebut kemudian diterapkan pada versi modifikasi dari Database Kata Pinjaman Dunia, sebuah katalog informasi pinjaman untuk sampel dari 40 bahasa dari rumpun bahasa yang berbeda di seluruh dunia, untuk melihat seberapa akurat kata-kata dalam suatu bahasa tertentu akan diklasifikasikan sebagai dipinjam atau tidak dengan teknik yang berbeda.

Dalam banyak kasus, hasilnya tidak memuaskan, menunjukkan bahwa deteksi kata pinjaman terlalu sulit untuk metode pembelajaran mesin yang paling umum digunakan. Namun, dalam situasi tertentu, seperti dalam daftar dengan proporsi kata pinjaman yang tinggi atau dalam bahasa yang kata pinjamannya terutama berasal dari satu bahasa donor, model bahasa leksikal tim menunjukkan beberapa harapan.

Studi baru menguji pembelajaran mesin pada deteksi kata pinjaman dalam bahasa dunia

Perbandingan model bahasa leksikal yang digunakan dalam penelitian. Kredit: Miller et al., 2020

“Setelah eksperimen pertama dengan pinjaman leksikal monolingual, kami dapat melanjutkan untuk mengamati aspek lain dari masalah, beralih ke pendekatan multibahasa dan lintas bahasa,” kata John Miller dari PUCP, penulis utama studi tersebut.

“Pendekatan berbantuan komputer kami, bersama dengan kumpulan data yang kami rilis, akan memberikan pemahaman baru tentang pentingnya metode bantuan komputer untuk perbandingan bahasa dan linguistik historis,” tambah Tiago Tresoldi, penulis utama studi lainnya dari MPI- SHH.

Studi ini menggabungkan upaya berkelanjutan untuk mengatasi salah satu masalah paling menantang dalam linguistik historis, yang menunjukkan bahwa deteksi kata pinjaman tidak dapat mengandalkan informasi mono-bahasa saja. Di masa mendatang, penulis berharap dapat mengembangkan pendekatan yang lebih terintegrasi dengan mempertimbangkan informasi multibahasa.


Bilingual mash up: Temuan kontraintuitif dari sosiolinguistik


Informasi lebih lanjut:
PLOS ONE (2020). DOI: 10.1371 / journal.pone.0242709

Disediakan oleh Max Planck Society

Kutipan: Studi baru menguji pembelajaran mesin pada deteksi kata-kata pinjaman dalam bahasa dunia (2020, 9 Desember) diambil 9 Desember 2020 dari https://techxplore.com/news/2020-12-machine-words-world-languages.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.




Halaman Ini Di Persembahkan Oleh : Pengeluaran HK