Tes baru mengungkapkan bahwa AI masih kurang akal sehat
Ai

Tes baru mengungkapkan bahwa AI masih kurang akal sehat


Meskipun ada kemajuan dalam pemrosesan bahasa alami, sistem canggih masih menghasilkan kalimat seperti “dua anjing saling melempar frisbee”. Kredit: Adriana Sanchez.

Pemrosesan bahasa alami (NLP) telah mengambil langkah besar baru-baru ini — tetapi seberapa jauh AI memahami apa yang dibaca? Kurang dari yang kami duga, menurut para peneliti di Departemen Ilmu Komputer USC. Dalam makalah baru-baru ini, Asisten Profesor Xiang Ren dan Ph.D. siswa Yuchen Lin menemukan bahwa meskipun ada kemajuan, AI masih tidak memiliki akal sehat yang diperlukan untuk menghasilkan kalimat yang masuk akal.

“Model generasi teks mesin saat ini dapat menulis artikel yang mungkin meyakinkan banyak manusia, tetapi pada dasarnya mereka meniru apa yang telah mereka lihat dalam fase pelatihan,” kata Lin. “Tujuan kami dalam makalah ini adalah untuk mempelajari masalah apakah model generasi teks mutakhir saat ini dapat menulis kalimat untuk menggambarkan skenario alam dalam kehidupan kita sehari-hari.”

Memahami skenario dalam kehidupan sehari-hari

Secara khusus, Ren dan Lin menguji kemampuan model untuk bernalar dan menunjukkan ada kesenjangan besar antara model pembuatan teks saat ini dan kinerja manusia. Dengan serangkaian kata benda dan kata kerja yang umum, model komputer NLP yang canggih ditugaskan untuk membuat kalimat yang dapat dipercaya yang menggambarkan skenario sehari-hari. Sementara model menghasilkan kalimat yang benar secara tata bahasa, mereka sering tidak koheren secara logis.

Misalnya, berikut ini satu contoh kalimat yang dihasilkan oleh model canggih menggunakan kata “dog, frisbee, throw, catch”:

“Dua anjing saling melempar frisbee.”

Tes ini didasarkan pada asumsi bahwa gagasan yang koheren (dalam hal ini: “seseorang melempar frisbee dan seekor anjing menangkapnya,”) tidak dapat dihasilkan tanpa kesadaran yang lebih dalam akan konsep akal sehat. Dengan kata lain, akal sehat lebih dari sekadar pemahaman bahasa yang benar — ini berarti Anda tidak perlu menjelaskan semuanya dalam percakapan. Ini adalah tantangan mendasar dalam tujuan mengembangkan AI yang dapat digeneralisasi — tetapi di luar akademisi, ini juga relevan bagi konsumen.

Tanpa pemahaman tentang bahasa, chatbots dan asisten suara yang dibangun di atas model bahasa alami yang canggih ini rentan terhadap kegagalan. Ini juga penting jika robot ingin lebih hadir di lingkungan manusia. Lagi pula, jika Anda meminta robot untuk susu panas, Anda berharap ia tahu bahwa Anda menginginkan secangkir susu, bukan seluruh karton.

“Kami juga menunjukkan bahwa jika model generasi berkinerja lebih baik pada pengujian kami, itu juga dapat bermanfaat bagi aplikasi lain yang membutuhkan penalaran yang masuk akal, seperti pembelajaran robotik,” kata Lin. “Robot perlu memahami skenario alam dalam kehidupan sehari-hari kita sebelum mereka melakukan tindakan yang wajar untuk berinteraksi dengan orang.”

Tes akal sehat

Penalaran yang masuk akal, atau kemampuan untuk membuat kesimpulan menggunakan pengetahuan dasar tentang dunia — seperti fakta bahwa anjing tidak dapat melempar frisbee satu sama lain — telah menolak upaya peneliti AI selama beberapa dekade. Model pembelajaran dalam yang canggih sekarang dapat mencapai akurasi sekitar 90%, sehingga NLP tampaknya semakin mendekati tujuannya.

Tetapi Ren, seorang ahli dalam pemrosesan bahasa alami dan Lin, muridnya, perlu lebih diyakinkan tentang keakuratan statistik ini. Dalam makalah mereka, yang diterbitkan dalam konferensi Findings of Empirical Methods in Natural Language Processing (EMNLP) pada 16 November, mereka menantang keefektifan patokan dan, oleh karena itu, tingkat kemajuan yang sebenarnya telah dibuat oleh bidang tersebut.

Tes baru mengungkapkan bahwa AI masih kurang akal sehat

Contoh kalimat yang dihasilkan oleh model pembuatan teks mutakhir. Kredit: dari makalah: “Commongen: tantangan pembuatan teks terbatas untuk penalaran akal sehat generatif.”

“Manusia memperoleh kemampuan menyusun kalimat dengan belajar memahami dan menggunakan konsep umum yang mereka kenali di lingkungan sekitarnya,” kata Lin.

“Memperoleh kemampuan ini dianggap sebagai tonggak utama dalam perkembangan manusia. Tetapi kami ingin menguji apakah mesin benar-benar dapat memperoleh kemampuan penalaran akal sehat generatif seperti itu.”

Untuk mengevaluasi model mesin yang berbeda, pasangan mengembangkan tugas pembuatan teks terbatas yang disebut CommonGen, yang dapat digunakan sebagai patokan untuk menguji akal sehat umum mesin. Peneliti mempresentasikan dataset yang terdiri dari 35.141 konsep yang dikaitkan dengan 77.449 kalimat. Mereka menemukan bahwa model dengan performa terbaik sekalipun hanya mencapai tingkat akurasi 31,6% dibandingkan 63,5% untuk manusia.

“Kami terkejut bahwa para model tidak dapat mengingat pengetahuan akal sehat sederhana bahwa ‘manusia yang melempar frisbee’ seharusnya jauh lebih masuk akal daripada anjing yang melakukannya,” kata Lin. “Kami bahkan menemukan model terkuat, yang disebut T5, setelah pelatihan dengan kumpulan data yang besar, masih dapat membuat kesalahan konyol.”

Tampaknya, kata para peneliti, bahwa tes sebelumnya belum cukup menantang model pada kemampuan akal sehat mereka, melainkan meniru apa yang telah mereka lihat dalam fase pelatihan.

“Studi sebelumnya terutama berfokus pada akal sehat diskriminatif,” kata Ren. “Mereka menguji mesin dengan pertanyaan pilihan ganda, di mana ruang pencarian untuk mesin itu kecil — biasanya empat atau lima kandidat.”

Misalnya, pengaturan khas untuk pengujian akal sehat diskriminatif adalah tugas menjawab pertanyaan pilihan ganda, misalnya: “Di mana orang dewasa menggunakan lem?” A: ruang kelas B: kantor C: laci meja.

Jawabannya di sini, tentu saja, adalah “B: kantor”. Bahkan komputer dapat mengetahui hal ini tanpa banyak kesulitan. Sebaliknya, pengaturan generatif lebih terbuka, seperti tugas CommonGen, di mana model diminta untuk menghasilkan kalimat alami dari konsep yang diberikan.

Ren menjelaskan: “Dengan pelatihan model yang ekstensif, sangat mudah untuk memiliki kinerja yang baik pada tugas-tugas tersebut. Tidak seperti tugas penalaran akal sehat diskriminatif itu, pengujian yang kami usulkan berfokus pada aspek generatif dari akal sehat mesin.”

Ren dan Lin berharap kumpulan data tersebut akan berfungsi sebagai tolok ukur baru untuk memberi manfaat bagi penelitian di masa mendatang tentang memperkenalkan akal sehat pada generasi bahasa alami. Faktanya, mereka bahkan memiliki papan peringkat yang menggambarkan skor yang dicapai oleh berbagai model populer untuk membantu peneliti lain menentukan kelayakan mereka untuk proyek masa depan.

“Robot perlu memahami skenario alam dalam kehidupan sehari-hari kita sebelum mereka melakukan tindakan yang wajar untuk berinteraksi dengan manusia,” kata Lin.

“Dengan memperkenalkan akal sehat dan pengetahuan khusus domain lainnya ke mesin, saya yakin suatu hari kita dapat melihat agen AI seperti Samantha dalam film Dia yang menghasilkan respons alami dan berinteraksi dengan kehidupan kita.”


Kemampuan program generasi bahasa untuk menulis artikel, menghasilkan kode, dan menulis puisi telah memukau para ilmuwan


Informasi lebih lanjut:
CommonGen: Tantangan Pembuatan Teks Terbatas untuk Penalaran Akal Sehat Generatif, arXiv: 1911.03705 [cs.CL] arxiv.org/abs/1911.03705

inklab.usc.edu/CommonGen/

Disediakan oleh University of Southern California

Kutipan: Tes baru mengungkapkan bahwa AI masih kurang masuk akal (2020, 18 November) diambil 27 November 2020 dari https://techxplore.com/news/2020-11-reveals-ai-lacks-common.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.


Halaman Ini Di Persembahkan Oleh : Toto SGP