Alat terjemahan mesin menemukan arti kata yang bervariasi berdasarkan penayangan berita
Sciences

Alat terjemahan mesin menemukan arti kata yang bervariasi berdasarkan penayangan berita


Kredit: Pixabay / CC0 Domain Publik

Bukan berita bahwa politik AS sangat terpolarisasi atau polarisasi memengaruhi saluran berita kabel. Tetapi para peneliti di Universitas Carnegie Mellon, yang menggunakan alat penerjemahan komputer dengan cara yang belum pernah terjadi sebelumnya, telah menemukan bahwa makna beberapa kata pun sekarang terpolarisasi.

Setiap orang berbicara bahasa Inggris, kata mereka, namun analisis komputer dari diskusi media sosial menunjukkan pemirsa dari saluran berita yang berbeda, dalam arti tertentu, berbicara dalam bahasa yang berbeda.

Berdasarkan jutaan komentar pengguna di saluran YouTube untuk empat saluran berita kabel terkemuka, tampaknya pemirsa saluran sayap kanan memikirkan “Burisma,” dengan cara yang sama seperti rekan sayap kiri mereka berpikir tentang “Kushner.” Sebuah “protes” untuk satu kelompok penonton adalah “kerusuhan” bagi yang lain. Untuk satu, itu adalah “topeng”, yang lain, “moncong”.

“Black Lives Matter” (BLM) di CNN English setara dengan “All Lives Matter” di Fox News English. Bahkan lebih ekstrim lagi, beberapa pemirsa berita sayap kanan menggunakan “BLM” dalam konteks yang sama dengan pemirsa berita sayap kiri menggunakan “KKK” (Ku Klux Klan).

“Beberapa dari yang disebut pasangan tidak sejajar ini tampak cukup jelas,” kata Mark S. Kamlet, Profesor Ekonomi dan Kebijakan Publik Universitas. “Tapi sungguh mengejutkan betapa berbedanya beberapa di antaranya. Ini memberi Anda gambaran tentang polarisasi yang benar-benar tragis yang ada saat ini.”

Alat terjemahan mesin menemukan arti kata yang bervariasi berdasarkan penayangan berita

Mark S. Kamlet memegang janji bersama untuk Heinz College of Sistem Informasi dan Kebijakan Publik dan Dietrich College of Humaniora dan Ilmu Sosial. Dia memimpin penelitian inovatif menggunakan alat terjemahan komputer. Kredit: Universitas Carnegie Mellon

Metode penerjemahan mesin modern menentukan arti sebuah kata berdasarkan sebagian besar konteksnya — kata lain yang biasanya muncul paling dekat dengan teks. “Halo” dalam bahasa Inggris dan “hola” dalam bahasa Spanyol adalah sapaan yang identik dan, karenanya, muncul dalam konteks yang sama dalam bahasa yang berbeda.

Ashiqur KhudaBukhsh, seorang ilmuwan proyek di Institut Teknologi Bahasa Sekolah Ilmu Komputer, mengatakan ide di balik penelitian baru itu adalah menggunakan metode yang sama untuk menganalisis polarisasi media sosial. Tujuannya adalah untuk menemukan kata-kata bahasa Inggris berbeda yang digunakan dalam konteks yang sama oleh orang-orang yang berbicara dalam bahasa berita yang berbeda.

Misalnya, seorang konservatif mungkin berkata “Demokrat adalah ancaman terbesar bagi Amerika saat ini,” sementara kaum liberal mungkin berkata “Republikan adalah ancaman terbesar bagi Amerika saat ini.” Partai Demokrat dan Republik digunakan dalam konteks yang sama, membuat mereka berpasangan tidak sejajar dan mengindikasikan polarisasi politik.

Untuk melakukan analisis mereka, para peneliti menggunakan kumpulan data 86,6 juta komentar oleh 6,5 juta pengguna untuk lebih dari 200.000 video berita dari CNN, Fox News, MSNBC dan One America News Network (OANN). Perangkat lunak menyelesaikan analisis secara otomatis, tanpa campur tangan manusia.

“Kami pikir metode kami ampuh karena efisien,” kata KhudaBukhsh. “Anda tidak perlu membaca jutaan komentar. Tetapi jika Anda tahu bahwa ‘topeng’ diterjemahkan menjadi ‘moncong’, Anda segera tahu bahwa perdebatan sedang terjadi seputar kebebasan berbicara dan penggunaan topeng.”

Selain mendeteksi pasangan yang tidak sejajar ini, metode ini juga menghitung tingkat kemiripan antara “bahasa”. Dalam analisis empat arah CNN, MSNBC, Fox News dan OANN, kata-kata yang diterjemahkan dari MSNBC Inggris ke CNN Inggris memiliki kemiripan 63%, sedangkan kata-kata yang diterjemahkan dari MSNBC Bahasa Inggris ke Bahasa Inggris OANN hanya memiliki kemiripan 42%.

Para peneliti juga membandingkan komentar penonton CNN, Fox News dan MSNBC dengan lebih dari 4 juta komentar penonton larut malam komedian Trevor Noah, Seth Meyers, Stephen Colbert, Jimmy Kimmel dan John Oliver. Mereka menemukan kata-kata yang diterjemahkan dari Fox News English ke bahasa Inggris komedian 75% serupa, sedangkan kata-kata yang diterjemahkan dari CNN English ke bahasa Inggris komedian 83% serupa.

Melakukan analisis yang sama dengan tangan tidak mungkin dilakukan, kata Kamlet, yang memegang janji bersama di Heinz College of Information Systems and Public Policy dan Dietrich College of Humanities and Social Sciences.

“Kami menggunakan paket statistik standar yang mengambil setiap kata dan memetakannya ke dalam ruang 100 dimensi,” jelasnya. “Jelas, Anda mungkin dapat melakukan lintas tab dengan tangan. Tetapi bahkan dengan tab silang, Anda berbicara tentang jutaan komentar.”

Tim peneliti termasuk Tom Mitchell, Profesor Universitas Pendiri; dan Rupak Sarkar, insinyur peneliti untuk kursus seminar musim gugur 2020 tentang melacak sentimen politik menggunakan pembelajaran mesin yang diajarkan oleh KhudaBukhsh, Kamlet, dan Mitchell. Makalah mereka telah diserahkan ke konferensi ilmu komputer dan tersedia secara online di arXiv.


Facebook memperkenalkan penerjemah pembelajaran mesin untuk 100 bahasa


Informasi lebih lanjut:
KhudaBukhsh et al., Kami Tidak Berbicara Bahasa yang Sama: Menafsirkan Polarisasi Melalui Terjemahan Mesin. arXiv: 2010.02339 [cs.CL]. arxiv.org/pdf/2010.02339.pdf

Disediakan oleh Universitas Carnegie Mellon

Kutipan: Alat terjemahan mesin menemukan arti kata bervariasi berdasarkan penayangan berita (2020, 23 Oktober), diakses 27 November 2020 dari https://techxplore.com/news/2020-10-machine-tools-word-vary-based.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.


Halaman Ini Di Persembahkan Oleh : Hongkong Prize