Peneliti memeriksa bagaimana model BERT multibahasa menyandikan fitur tata bahasa
Computer

Peneliti memeriksa bagaimana model BERT multibahasa menyandikan fitur tata bahasa


Untuk setiap lapisan (sumbu x), proporsi waktu yang peneliti prediksi bahwa kata benda adalah subjek (A), dipisahkan oleh peran tata bahasa. Pada lapisan yang lebih tinggi, subjek intransitif (S) sebagian besar diklasifikasikan sebagai subjek (A). Jika bahasa sumbernya Basque (ergatif) atau Hindi atau Urdu (split-ergative) S cenderung tidak berpola dengan A. Angka diurutkan berdasarkan seberapa dekat garis S ke A, dan bahasa ergatif dan split-ergatif disorot dengan kotak abu-abu. Kredit: Papadimitriou et al.

Selama beberapa dekade terakhir, para peneliti telah mengembangkan model berbasis jaringan saraf dalam yang dapat menyelesaikan berbagai tugas. Beberapa dari teknik ini dirancang khusus untuk memproses dan menghasilkan teks yang koheren dalam berbagai bahasa, menerjemahkan teks, menjawab pertanyaan tentang teks, dan membuat ringkasan artikel berita atau konten online lainnya.

Sistem deep learning dengan kemampuan linguistik sudah banyak tersedia, misalnya dalam bentuk aplikasi untuk penerjemahan real-time, alat analisis teks dan asisten virtual seperti Siri, Alexa, Bixby, Google Assistant dan Cortana. Beberapa dari sistem ini menggunakan model pembelajaran mendalam khusus yang dirilis oleh Google yang disebut Multilingual BERT (mBERT). Model ini dilatih pada sekitar 100 bahasa secara bersamaan. Ini memungkinkannya menyelesaikan berbagai tugas bahasa, misalnya, menerjemahkan konten dari satu bahasa ke bahasa lain.

Pengguna dapat berinteraksi dengan sistem berbasis mBERT dalam berbagai bahasa, mulai dari Inggris, Spanyol dan Prancis hingga Basque dan Indonesia. Sementara model mBERT telah ditemukan bekerja dengan baik pada banyak tugas bahasa, bagaimana ia mengkodekan informasi yang berhubungan dengan bahasa dan membuat prediksinya masih kurang dipahami.

Para peneliti di Universitas Stanford, Universitas California, Irvine dan Universitas California, Santa Barbara baru-baru ini melakukan penelitian yang bertujuan untuk lebih memahami bagaimana teknik berbasis mBERT bekerja dan bagaimana teknik tersebut menyandikan fitur tata bahasa. Makalah mereka, yang penulis utamanya adalah Isabel Papadimitriou, seorang mahasiswa pascasarjana di bidang ilmu komputer di Stanford, akan dipresentasikan pada konferensi linguistik komputasi EACL. Makalah ini menawarkan wawasan berharga tentang dasar-dasar model yang umum digunakan ini dan bagaimana mereka menganalisis bahasa saat menyelesaikan berbagai tugas.

“Model seperti BERT multibahasa sangat kuat, tetapi, tidak seperti model pembelajaran mendalam yang telah dilatih sebelumnya, tidak jelas informasi apa yang sebenarnya dikandungnya, bahkan bagi pembuatnya,” Kyle Mahowald, ahli bahasa di University of California, Santa Barbara dan salah satu peneliti senior yang mengawasi studi tersebut, kepada TechXplore. “Itu karena model dilatih, bukan diprogram; dengan demikian, mereka mempelajari parameter melalui proses pelatihan pada sejumlah besar data.”

Pada dasarnya, model mBERT merepresentasikan teks sebagai rangkaian vektor, yang masing-masing terdiri dari ribuan angka. Setiap vektor sesuai dengan sebuah kata, sedangkan hubungan antar kata dikodekan sebagai hubungan geometris dalam ruang berdimensi tinggi.

“Karena model-model ini sangat berhasil dalam menghadapi bahasa manusia, kita tahu bahwa vektor angka ini harus mewakili pengetahuan linguistik,” kata Mahowald. “Tapi bagaimana mereka menyandikan informasi ini, dan apakah itu seperti cara pengetahuan direpresentasikan dalam otak manusia? Pekerjaan kami adalah bagian dari upaya ini untuk memahami cara di mana model bahasa saraf dalam merepresentasikan dan menggunakan informasi linguistik.”

Memahami bagaimana model mBERT menyandikan bahasa tidak jauh berbeda dengan mencoba memahami bagaimana manusia memprosesnya. Oleh karena itu, tim di balik studi terbaru ini terdiri dari ilmuwan komputer dan ahli bahasa. Tujuan utama mereka adalah untuk menentukan apakah model vektor mBERT benar-benar berisi informasi tentang beberapa aspek yang lebih dalam dari bahasa manusia dan strukturnya. Lebih khusus lagi, mereka ingin menentukan apakah model ini secara otonom mengungkap generalisasi yang diidentifikasi oleh beberapa dekade penelitian di bidang linguistik sebagai sangat berguna untuk analisis bahasa.

“Ini adalah waktu yang sangat menarik untuk mempelajari linguistik komputasi,” kata Richard Futrell, seorang ilmuwan bahasa di University of California, Irvine dan penasihat senior proyek lainnya. “Selama bertahun-tahun, ahli bahasa telah berbicara tentang ide-ide seperti ‘ruang semantik”, memikirkan arti kata dan frasa sebagai poin di beberapa ruang, tetapi semuanya agak kabur dan impresionistik. Sekarang, teori-teori ini telah dibuat dengan sangat tepat: Kami sebenarnya memiliki model di mana arti sebuah kata adalah titik di ruang angkasa, dan model itu benar-benar berperilaku sedemikian rupa sehingga ia memahami (beberapa) bahasa manusia. “

Untuk memproses bahasa manusia, model mBERT dan kerangka kerja berbasis pembelajaran mendalam lainnya untuk analisis bahasa mungkin sebenarnya telah menemukan kembali teori yang dibuat oleh peneliti linguistik setelah menganalisis bahasa manusia secara mendalam. Atau, mereka mungkin mendasarkan prediksi mereka pada teori atau aturan bahasa yang sama sekali baru. Mahowald dan rekan-rekannya ingin mengeksplorasi kedua kemungkinan ini lebih jauh, karena memahami bagaimana teknik komputasi yang menyandikan bahasa ini dapat memiliki implikasi penting untuk penelitian dalam ilmu komputer dan linguistik.

“Memahami bagaimana model ini bekerja (yaitu, informasi apa yang telah mereka pelajari dan bagaimana mereka menggunakannya) tidak hanya menarik secara ilmiah, tetapi juga secara praktis penting jika kita ingin mengembangkan sistem AI yang dapat kita gunakan dan percayai,” kata Futrell. “Jika kita tidak tahu apa yang diketahui oleh suatu model bahasa, maka kita tidak dapat mempercayai bahwa ia akan melakukan hal yang benar (yaitu, terjemahannya akan benar, ringkasannya akan akurat) dan kita juga tidak dapat mempercayai bahwa ia belum mempelajari hal-hal yang tidak diinginkan seperti ras atau bias gender. “

Karena model mBERT umumnya dilatih pada kumpulan data yang dikompilasi oleh manusia, mereka mungkin mengambil beberapa kesalahan yang biasa dilakukan manusia saat menangani masalah yang berhubungan dengan bahasa. Studi yang dilakukan oleh tim multidisiplin dapat berperan dalam mengungkap beberapa kesalahan ini dan kesalahan lain yang dilakukan alat AI saat menganalisis bahasa. Pertama, para peneliti berangkat untuk menyelidiki bagaimana model mBERT mewakili perbedaan antara subjek dan objek di berbagai bahasa (yaitu, siapa melakukan apa dan kepada siapa / apa).

“Saat kalimat dimasukkan ke mBERT, setiap kata mendapat representasi vektor,” kata Mahowald. “Kami membuat model baru (jauh lebih kecil dari mBERT) yang kemudian kami tanyakan: jika kami memberi Anda vektor kata dari mBERT, dapatkah Anda memberi tahu kami apakah itu subjek atau objek? Artinya, berikut adalah representasi dari kata ‘ anjing.” Dapatkah Anda memberi tahu kami jika penggunaan ‘anjing’ itu adalah subjek kalimat, seperti dalam “Anjing mengejar kucing?” atau objek kalimat, seperti dalam “Kucing mengejar anjing? ‘”

Orang mungkin berasumsi bahwa hubungan subjek dan objek digambarkan dalam semua bahasa dan direpresentasikan dengan cara yang serupa. Namun, sebenarnya ada perbedaan besar dalam hal apa yang merupakan subjek dan objek dalam berbagai bahasa. Papadimitriou dan rekannya mencoba memanfaatkan perbedaan ini untuk mendapatkan pemahaman yang lebih baik tentang bagaimana model mBERT memproses kalimat.

“Jika Anda berbicara bahasa seperti bahasa Inggris, mungkin tampak jelas bahwa kata ‘dog’ dalam” Anjing mengejar kucing ‘memainkan peran yang mirip dengan kata’ anjing ‘dalam “Anjing berlari,” kata Papadimitriou. “Dalam kasus pertama, kata kerja memiliki objek (‘kucing’), dan dalam kasus kedua tidak memiliki objek; tetapi dalam kedua kasus, ‘anjing’ adalah subjek, agen, pelaku, dan dalam kalimat pertama ‘ cat ‘adalah objeknya — sesuatu yang melakukan sesuatu terhadapnya. Namun, tidak demikian halnya dalam semua bahasa. “

Bahasa Inggris dan sebagian besar bahasa yang digunakan di Eropa memiliki struktur yang dikenal sebagai perataan nominatif, yang dengan jelas mencirikan subjek dan objek dalam kalimat. Sebaliknya, beberapa bahasa, termasuk Basque, Hindi, dan Georgia, menggunakan struktur yang dikenal sebagai penyelarasan ergatif. Dalam keselarasan ergatif, subjek dalam kalimat tanpa objek (mis. Kata ‘anjing’ dalam kalimat ‘anjing berlari’) diperlakukan lebih seperti objek, dalam arti mengikuti struktur gramatikal yang digunakan untuk objek.

“Tujuan utama dari pekerjaan kami adalah untuk menguji apakah BERT multibahasa memahami ide keselarasan, ergatif atau nominatif,” kata Papadimitriou. “Dengan kata lain, kami bertanya: Apakah BERT multibahasa memahami, pada tingkat yang dalam, (1) apa yang membentuk agen dan pasien dari kata kerja, dan (2) bagaimana bahasa yang berbeda mengukir ruang itu menjadi subjek dan objek? Ternyata bahwa mBERT, yang dilatih pada sekitar 100 bahasa sekaligus, menyadari perbedaan ini dengan cara yang menarik secara linguistik. “

Temuan ini menawarkan wawasan baru dan menarik tentang bagaimana model mBERT dan mungkin model komputasi lain untuk analisis bahasa merepresentasikan informasi gramatikal. Menariknya, model yang diuji oleh para peneliti, yang didasarkan pada representasi vektor mBERT, juga ditemukan membuat kesalahan yang konsisten yang dapat disejajarkan dengan kesalahan yang dibuat oleh manusia yang memproses bahasa.

“Di berbagai bahasa, model kami lebih cenderung salah menyebut subjek sebagai objek ketika subjek itu adalah kata benda mati, yang berarti kata benda yang bukan manusia atau hewan,” kata Papadimitriou. “Ini karena sebagian besar pelaku dalam kalimat cenderung berupa kata benda yang bernyawa: manusia atau hewan. Faktanya, beberapa ahli bahasa berpikir bahwa subjektivitas sebenarnya ada dalam spektrum. Subjek yang bersifat manusia lebih ‘subjek-y’ daripada subjek hewan, dan subjek yang merupakan hewan lebih subjek-y daripada subjek yang bukan manusia maupun hewan, dan inilah yang tampaknya ditemukan oleh model kami di mBERT. “

Secara keseluruhan, penelitian ini menunjukkan bahwa model mBERT mengidentifikasi subjek dan objek dalam kalimat dan merepresentasikan hubungan antara keduanya dengan cara yang selaras dengan literatur linguistik yang ada. Di masa mendatang, temuan penting ini dapat membantu ilmuwan komputer mendapatkan pemahaman yang lebih baik tentang bagaimana teknik pembelajaran mendalam yang dirancang untuk memproses bahasa manusia bekerja, membantu mereka meningkatkan kinerja lebih lanjut.

“Kami sekarang berharap untuk terus mengeksplorasi cara-cara di mana model bahasa saraf dalam mewakili kategori linguistik, seperti subjek dan objek, dalam ruang vektor kontinu mereka,” kata Mahowald. “Secara khusus, kami berpikir bahwa pekerjaan dalam linguistik, yang berupaya untuk mengkarakterisasi peran seperti subjek dan objek bukan sebagai kategori diskrit tetapi sebagai sekumpulan fitur, dapat menginformasikan cara kami memikirkan model ini dan apa yang mereka lakukan.”


Bagaimana sistem AI menggunakan Mad Libs untuk mempelajari tata bahasa mereka sendiri


Informasi lebih lanjut:
Subjek yang dalam: fitur tata bahasa tingkat tinggi dalam BERT multibahasa. arXIv: 2101.11043 [cs.CL]. arxiv.org/abs/2101.11043

© 2021 Science X Network

Kutipan: Peneliti memeriksa bagaimana model BERT multibahasa menyandikan fitur tata bahasa (2021, 22 Februari) diambil pada 22 Februari 2021 dari https://techxplore.com/news/2021-02-multilingual-bert-encode-grammatical-features.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.




Halaman Ini Di Persembahkan Oleh : Pengeluaran HK