Menyusut jaringan saraf besar yang digunakan untuk memodelkan bahasa
Computer

Menyusut jaringan saraf besar yang digunakan untuk memodelkan bahasa


Jaringan saraf pembelajaran dalam bisa sangat besar, menuntut daya komputasi yang besar. Dalam uji Hipotesis Tiket Lotere, peneliti MIT telah menemukan subnetwork yang lebih ramping dan efisien yang tersembunyi dalam model BERT. Kredit: Jose-Luis Olivares, MIT

Anda tidak perlu palu godam untuk memecahkan kacang.

Jonathan Frankle sedang meneliti kecerdasan buatan — bukan mengunyah pistachio — tetapi filosofi yang sama berlaku untuk “hipotesis tiket lotre” miliknya. Ia berpendapat bahwa, tersembunyi di dalam jaringan neural masif, subnetwork yang lebih ramping dapat menyelesaikan tugas yang sama dengan lebih efisien. Triknya adalah menemukan subnetwork ‘beruntung’ itu, yang dijuluki tiket lotere pemenang.

Dalam sebuah makalah baru, Frankle dan rekannya menemukan subnetwork semacam itu yang bersembunyi di dalam BERT, pendekatan jaringan saraf canggih untuk pemrosesan bahasa alami (NLP). Sebagai cabang dari kecerdasan buatan, NLP bertujuan untuk menguraikan dan menganalisis bahasa manusia, dengan aplikasi seperti pembuatan teks prediktif atau chatbot online. Dalam istilah komputasi, BERT besar, biasanya menuntut daya superkomputer yang tidak tersedia untuk sebagian besar pengguna. Akses ke tiket lotere BERT yang menang dapat menyamakan kedudukan, berpotensi memungkinkan lebih banyak pengguna untuk mengembangkan alat NLP yang efektif pada smartphone — tidak perlu palu godam.

“Kami mencapai titik di mana kami harus membuat model ini lebih ramping dan lebih efisien,” kata Frankle, menambahkan bahwa kemajuan ini suatu hari nanti dapat “mengurangi hambatan masuk” untuk NLP.

Frankle, Ph.D. Mahasiswa dalam kelompok Michael Carbin di MIT Computer Science and Artificial Intelligence Laboratory, menulis penelitian tersebut, yang akan dipresentasikan bulan depan di Conference on Neural Information Processing Systems. Tianlong Chen dari University of Texas di Austin adalah penulis utama makalah ini, yang mencakup kolaborator Zhangyang Wang, juga dari Texas A&M, serta Shiyu Chang, Sijia Liu, dan Yang Zhang, semuanya dari MIT-IBM Watson AI Lab .

Anda mungkin pernah berinteraksi dengan jaringan BERT hari ini. Ini adalah salah satu teknologi yang mendasari mesin pencari Google, dan telah memicu kegembiraan di antara para peneliti sejak Google merilis BERT pada tahun 2018. BERT adalah metode untuk membuat jaringan saraf — algoritme yang menggunakan node berlapis, atau “neuron”, untuk belajar melakukan tugas melalui pelatihan tentang berbagai contoh. BERT dilatih dengan berulang kali mencoba mengisi kata-kata yang tertinggal dari bagian tulisan, dan kekuatannya terletak pada ukuran besar dari kumpulan data pelatihan awal ini. Pengguna kemudian dapat menyesuaikan jaringan saraf BERT ke tugas tertentu, seperti membangun chatbot layanan pelanggan. Tapi bertengkar BERT membutuhkan banyak kekuatan pemrosesan.

“Model BERT standar hari ini — varietas taman — memiliki 340 juta parameter,” kata Frankle, menambahkan bahwa jumlahnya bisa mencapai 1 miliar. Memperbaiki jaringan yang begitu besar dapat membutuhkan superkomputer. “Ini sangat mahal. Ini jauh melampaui kemampuan komputasi Anda atau saya.”

Chen setuju. Meskipun BERT sangat populer, model seperti itu “menderita dari ukuran jaringan yang sangat besar,” katanya. Untungnya, “hipotesis tiket lotere tampaknya menjadi solusi.”

Untuk memotong biaya komputasi, Chen dan rekannya berusaha untuk menunjukkan model yang lebih kecil yang tersembunyi dalam BERT. Mereka bereksperimen dengan memangkas parameter secara berulang dari jaringan BERT penuh, kemudian membandingkan kinerja subnetwork baru dengan model BERT asli. Mereka menjalankan perbandingan ini untuk berbagai tugas NLP, dari menjawab pertanyaan hingga mengisi kata kosong dalam kalimat.

Para peneliti menemukan subnetwork yang berhasil 40 hingga 90 persen lebih ramping dari model BERT awal, tergantung pada tugasnya. Selain itu, mereka dapat mengidentifikasi tiket lotere yang menang sebelum menjalankan penyesuaian khusus tugas apa pun — sebuah temuan yang selanjutnya dapat meminimalkan biaya komputasi untuk NLP. Dalam beberapa kasus, subnetwork yang dipilih untuk satu tugas dapat digunakan kembali untuk tugas lain, meskipun Frankle mencatat bahwa transferabilitas ini tidak universal. Tetap saja, Frankle sangat senang dengan hasil grup.

“Saya agak terkejut ini bahkan berhasil,” katanya. “Itu bukan sesuatu yang saya anggap remeh. Saya mengharapkan hasil yang jauh lebih berantakan daripada yang kami dapatkan.”

Penemuan tiket kemenangan dalam model BERT ini “meyakinkan,” menurut Ari Morcos, seorang ilmuwan di Facebook AI Research. “Model ini menjadi semakin luas,” kata Morcos. “Jadi, penting untuk memahami apakah hipotesis tiket lotre berlaku.” Dia menambahkan bahwa temuan tersebut dapat memungkinkan model mirip BERT untuk berjalan menggunakan daya komputasi yang jauh lebih sedikit, “yang dapat berdampak besar mengingat model yang sangat besar ini saat ini sangat mahal untuk dijalankan.”

Frankle setuju. Dia berharap pekerjaan ini dapat membuat BERT lebih mudah diakses, karena ini mengurangi tren model NLP yang terus berkembang. “Saya tidak tahu seberapa besar kita bisa menggunakan komputasi gaya superkomputer ini,” katanya. “Kami harus mengurangi penghalang untuk masuk.” Mengidentifikasi subnetwork yang ramping dan pemenang lotre dapat mewujudkannya — memungkinkan pengembang yang tidak memiliki kekuatan komputasi Google atau Facebook untuk tetap melakukan NLP mutakhir. “Harapannya adalah ini akan menurunkan biaya, ini akan membuatnya lebih mudah diakses oleh semua orang… untuk orang-orang kecil yang baru saja memiliki laptop,” kata Frankle. “Bagiku itu sangat menyenangkan.”


Peneliti mengungkap algoritma pemangkasan untuk membuat aplikasi kecerdasan buatan berjalan lebih cepat


Informasi lebih lanjut:
Tianlong Chen dkk. Hipotesis Tiket Lotere untuk Jaringan BERT Pra-terlatih. arXiv: 2007.12223 [cs.LG] arxiv.org/abs/2007.12223

Disediakan oleh Massachusetts Institute of Technology

Kisah ini diterbitkan ulang atas izin MIT News (web.mit.edu/newsoffice/), situs populer yang meliput berita tentang penelitian, inovasi, dan pengajaran MIT.

Kutipan: Jaringan neural masif yang menyusut yang digunakan untuk bahasa model (2020, 1 Desember) diambil pada 1 Desember 2020 dari https://techxplore.com/news/2020-12-massive-neural-networks-language.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.




Halaman Ini Di Persembahkan Oleh : Pengeluaran HK