Sistem pembelajaran bahasa yang memperhatikan dengan lebih efisien dari sebelumnya
Spotlight

Sistem pembelajaran bahasa yang memperhatikan dengan lebih efisien dari sebelumnya


Peneliti MIT mengembangkan sistem perangkat keras dan perangkat lunak yang dapat mengurangi daya komputasi, energi, dan waktu yang diperlukan untuk analisis dan pembuatan teks. Kredit: Jose-Luis Olivares, MIT

Bahasa manusia bisa jadi tidak efisien. Beberapa kata sangat penting. Lainnya, bisa dibuang.

Baca ulang kalimat pertama dari cerita ini. Hanya dua kata, “bahasa” dan “tidak efisien”, yang dapat menyampaikan hampir seluruh makna kalimat. Pentingnya kata kunci mendasari alat baru yang populer untuk pemrosesan bahasa alami (NLP) oleh komputer: mekanisme perhatian. Ketika dikodekan ke dalam algoritme NLP yang lebih luas, mekanisme perhatian berada pada kata-kata kunci daripada memperlakukan setiap kata dengan kepentingan yang sama. Itu menghasilkan hasil yang lebih baik dalam tugas NLP seperti mendeteksi sentimen positif atau negatif atau memprediksi kata mana yang harus muncul berikutnya dalam sebuah kalimat.

Akurasi mekanisme perhatian sering kali mengorbankan kecepatan dan daya komputasi. Ini berjalan lambat pada prosesor tujuan umum seperti yang mungkin Anda temukan di komputer kelas konsumen. Jadi, peneliti MIT telah merancang sistem perangkat lunak-perangkat keras gabungan, dijuluki SpAtten, khusus untuk menjalankan mekanisme perhatian. SpAtten memungkinkan NLP yang lebih efisien dengan daya komputasi yang lebih sedikit.

“Sistem kami mirip dengan cara otak manusia memproses bahasa,” kata Hanrui Wang. “Kami membaca dengan sangat cepat dan hanya fokus pada kata-kata kunci. Itulah ide dari SpAtten.”

Penelitian ini akan dipresentasikan bulan ini di IEEE International Symposium on High-Performance Computer Architecture. Wang adalah penulis utama makalah dan gelar Ph.D. mahasiswa di Departemen Teknik Elektro dan Ilmu Komputer. Rekan penulis termasuk Zhekai Zhang dan penasihat mereka, Asisten Profesor Song Han.

Sejak diperkenalkan pada 2015, mekanisme perhatian telah menjadi keuntungan bagi NLP. Ini dibangun ke dalam model NLP mutakhir seperti BERT Google dan GPT-3 OpenAI. Inovasi utama mekanisme atensi adalah selektivitas — ia dapat menyimpulkan kata atau frasa mana dalam kalimat yang paling penting, berdasarkan perbandingan dengan pola kata yang sebelumnya ditemukan algoritme dalam fase pelatihan. Terlepas dari adopsi cepat mekanisme perhatian ke dalam model NLP, itu bukan tanpa biaya.

Model NLP memerlukan beban daya komputer yang besar, sebagian berkat permintaan memori yang tinggi dari mekanisme perhatian. “Bagian ini sebenarnya menjadi penghambat bagi model NLP,” kata Wang. Satu tantangan yang dia tunjukkan adalah kurangnya perangkat keras khusus untuk menjalankan model NLP dengan mekanisme perhatian. Prosesor serba guna, seperti CPU dan GPU, mengalami masalah dengan urutan rumit pergerakan data dan aritmatika mekanisme perhatian. Dan masalahnya akan menjadi lebih buruk karena model NLP menjadi semakin kompleks, terutama untuk kalimat yang panjang. “Kami membutuhkan pengoptimalan algoritme dan perangkat keras khusus untuk memproses permintaan komputasi yang terus meningkat,” kata Wang.

Para peneliti mengembangkan sistem yang disebut SpAtten untuk menjalankan mekanisme perhatian dengan lebih efisien. Desain mereka mencakup perangkat lunak dan perangkat keras khusus. Salah satu kemajuan perangkat lunak utama adalah penggunaan “pemangkasan kaskade” oleh SpAtten, atau menghilangkan data yang tidak perlu dari kalkulasi. Setelah mekanisme perhatian membantu memilih kata kunci kalimat (disebut token), SpAtten memangkas token yang tidak penting dan menghilangkan penghitungan dan pergerakan data yang sesuai. Mekanisme perhatian juga mencakup beberapa cabang komputasi (disebut head). Mirip dengan token, kepala yang tidak penting diidentifikasi dan dipangkas. Setelah dikirim, token dan head asing tidak menjadi faktor dalam penghitungan hilir algoritme, sehingga mengurangi beban komputasi dan akses memori.

Untuk lebih memangkas penggunaan memori, para peneliti juga mengembangkan teknik yang disebut “kuantisasi progresif.” Metode ini memungkinkan algoritme untuk menggunakan data dalam potongan lebar bit yang lebih kecil dan mengambil sesedikit mungkin dari memori. Presisi data yang lebih rendah, sesuai dengan bitwidth yang lebih kecil, digunakan untuk kalimat sederhana, dan presisi yang lebih tinggi digunakan untuk kalimat yang rumit. Secara intuitif itu seperti mengambil frase “cmptr progm” sebagai versi presisi rendah dari “program komputer.”

Di samping kemajuan perangkat lunak ini, para peneliti juga mengembangkan arsitektur perangkat keras yang dikhususkan untuk menjalankan SpAtten dan mekanisme perhatian sekaligus meminimalkan akses memori. Desain arsitektur mereka menggunakan “paralelisme” tingkat tinggi, yang berarti banyak operasi diproses secara bersamaan pada beberapa elemen pemrosesan, yang berguna karena mekanisme perhatian menganalisis setiap kata dari kalimat sekaligus. Desainnya memungkinkan SpAtten untuk menentukan peringkat pentingnya token dan head (untuk pemangkasan potensial) dalam sejumlah kecil siklus jam komputer. Secara keseluruhan, komponen perangkat lunak dan perangkat keras SpAtten bergabung untuk menghilangkan manipulasi data yang tidak perlu atau tidak efisien, dengan fokus hanya pada tugas yang diperlukan untuk menyelesaikan tujuan pengguna.

Filosofi di balik sistem diambil dari namanya. SpAtten adalah portmanteau dari “sparse attention,” dan para peneliti mencatat dalam makalah bahwa SpAtten adalah “homophonic with ‘spartan,” artinya sederhana dan hemat. “Wang berkata,” itu seperti teknik kami di sini: membuat kalimat lebih ringkas. Kesimpulan itu terbukti dalam pengujian.

Para peneliti memberi kode simulasi desain perangkat keras SpAtten — mereka belum membuat chip fisik — dan mengujinya terhadap prosesor untuk keperluan umum yang bersaing. SpAtten berlari lebih dari 100 kali lebih cepat dari pesaing terbaik berikutnya (TITAN Xp GPU). Lebih lanjut, SpAtten lebih dari 1.000 kali lebih hemat energi daripada pesaing, menunjukkan bahwa SpAtten dapat membantu memangkas kebutuhan listrik NLP yang substansial.

Para peneliti juga mengintegrasikan SpAtten ke dalam pekerjaan mereka sebelumnya, untuk membantu memvalidasi filosofi mereka bahwa perangkat keras dan perangkat lunak paling baik dirancang bersama-sama. Mereka membangun arsitektur model NLP khusus untuk SpAtten, menggunakan kerangka kerja Hardware-Aware Transformer (HAT), dan mencapai kecepatan dua kali lipat dibandingkan model yang lebih umum.

Para peneliti berpikir SpAtten dapat berguna bagi perusahaan yang menggunakan model NLP untuk sebagian besar beban kerja kecerdasan buatan mereka. “Visi kami untuk masa depan adalah bahwa algoritme dan perangkat keras baru yang menghilangkan redundansi dalam bahasa akan mengurangi biaya dan menghemat anggaran daya untuk beban kerja NLP pusat data” kata Wang.

Di ujung spektrum yang berlawanan, SpAtten dapat membawa NLP ke perangkat pribadi yang lebih kecil. “Kami dapat meningkatkan masa pakai baterai untuk ponsel atau perangkat IoT,” kata Wang, mengacu pada “hal” yang terhubung ke internet — televisi, speaker pintar, dan sejenisnya. “Itu sangat penting karena di masa depan, banyak perangkat IoT akan berinteraksi dengan manusia melalui suara dan bahasa alami, jadi NLP akan menjadi aplikasi pertama yang ingin kami terapkan.”

Han mengatakan fokus SpAtten pada efisiensi dan penghapusan redundansi adalah cara maju dalam penelitian NLP. “Otak manusia jarang diaktifkan [by key words]. Model NLP yang jarang diaktifkan akan menjanjikan di masa depan, “katanya.” Tidak semua kata sama — perhatikan hanya yang penting. ”


Menyelidiki mekanisme perhatian diri di balik arsitektur berbasis BERT


Informasi lebih lanjut:
SpAtten: Efficient Sparse Attention Architecture dengan Cascade Token dan Head Pruning. arXiv: 2012.09852v2 [cs.AR] arxiv.org/abs/2012.09852

Disediakan oleh Massachusetts Institute of Technology

Kisah ini diterbitkan ulang atas izin MIT News (web.mit.edu/newsoffice/), situs populer yang meliput berita tentang penelitian, inovasi, dan pengajaran MIT.

Kutipan: Sistem pembelajaran bahasa yang memberikan perhatian lebih efisien dari sebelumnya (2021, 10 Februari) diambil 10 Februari 2021 dari https://techxplore.com/news/2021-02-language-attention-efficiently.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.


Halaman Ini Di Persembahkan Oleh : Pengeluaran SGP Hari Ini