Sebuah kerangka kerja untuk menilai pentingnya variabel untuk model prediksi yang berbeda
Ai

Sebuah kerangka kerja untuk menilai pentingnya variabel untuk model prediksi yang berbeda


Gambar di sebelah kiri menunjukkan himpunan model yang hampir optimal (disebut himpunan Rashomon), diplot dalam bentuk nilai koefisien variabel. Gambar di sebelah kanan menunjukkan awan kepentingan variabel, di mana sumbu adalah kepentingan variabel. Dapat dilihat bahwa, ketika mempertimbangkan himpunan model yang baik, ketika variabel X1 sangat penting, variabel X2 tidak, dan sebaliknya. Kredit: Dong & Rudin.

Dua peneliti di Duke University baru-baru ini menemukan pendekatan yang berguna untuk memeriksa seberapa penting variabel tertentu untuk meningkatkan keandalan / akurasi model prediktif. Makalah mereka, diterbitkan di Kecerdasan Mesin Alam, pada akhirnya dapat membantu pengembangan algoritme pembelajaran mesin yang lebih andal dan berkinerja lebih baik untuk berbagai aplikasi.

“Kebanyakan orang memilih teknik pembelajaran mesin prediktif dan memeriksa variabel mana yang penting atau relevan dengan prediksinya setelahnya,” kata Jiayun Dong, salah satu peneliti yang melakukan penelitian tersebut, kepada TechXplore. “Bagaimana jika ada dua model yang memiliki kinerja serupa tetapi menggunakan variabel yang sangat berbeda? Jika itu masalahnya, seorang analis dapat membuat kesalahan dan berpikir bahwa satu variabel itu penting, padahal sebenarnya, ada model yang berbeda dan sama baiknya untuk yang penting adalah kumpulan variabel yang sangat berbeda. “

Dong dan rekannya Cynthia Rudin memperkenalkan metode yang dapat digunakan para peneliti untuk menguji pentingnya variabel untuk berbagai model prediksi yang hampir optimal. Pendekatan ini, yang mereka sebut sebagai “variabel kepentingan variabel”, dapat digunakan untuk mendapatkan pemahaman yang lebih baik tentang model pembelajaran mesin sebelum memilih yang paling menjanjikan untuk menyelesaikan tugas tertentu.

Istilah “awan kepentingan variabel” berasal dari gagasan bahwa ada beberapa model (yaitu, keseluruhan “awan” darinya) yang dapat dinilai dalam istilah kepentingan variabel. Awan ini dapat membantu peneliti untuk mengidentifikasi variabel yang penting dan yang tidak. Biasanya, pentingnya satu variabel menyiratkan bahwa variabel lain kurang penting (yaitu, tidak banyak memandu prediksi model tertentu).

“Dalam konteks ini, cloud adalah sekumpulan model seperti yang terlihat melalui lensa variabel penting,” kata Dong. “Tapi mari kita bahas bagaimana cara menghitungnya. Untuk setiap model prediktif yang hampir optimal (artinya hampir sebagus yang terbaik), kita hitung seberapa penting masing-masing variabel bagi model tersebut. Kemudian model ini direpresentasikan sebagai model. titik dalam ruang kepentingan variabel, di mana lokasi titik mewakili kepentingan variabelnya. Kumpulan titik tersebut (satu untuk setiap model prediksi) disebut awan kepentingan variabel. “

Pendekatan yang dirancang oleh Dong dan Rudin memfokuskan kembali analisis untuk memastikan bahwa mereka tidak memeriksa satu model pembelajaran mesin, melainkan kumpulan semua model prediktif yang baik. Saat menghitung semua model prediktif yang baik itu menantang atau tidak mungkin, para peneliti menggunakan teknik pengambilan sampel untuk menambahkan sampel di cloud atau teknik pengoptimalan untuk menggambarkan tepi cloud.

“Bentuk awan kepentingan variabel menyampaikan informasi yang kaya tentang pentingnya variabel untuk tugas prediksi; jauh lebih kaya daripada pendekatan yang hanya mempertimbangkan satu model,” kata Dong. “Selain memvisualisasikan batas atas dan bawah kepentingan setiap variabel, awan kepentingan variabel juga menunjukkan korelasi antara kepentingan variabel yang berbeda. Artinya, ini mengungkapkan apakah variabel menjadi kurang penting ketika variabel lain menjadi lebih penting, dan sebaliknya.”

Awan kepentingan variabel mengungkapkan lebih banyak informasi tentang nilai prediksi variabel yang berbeda daripada pendekatan evaluasi model sebelumnya berdasarkan analisis standar. Faktanya, metode analisis yang ada akan mengabaikan semua informasi yang terdapat di cloud, kecuali satu titik yang sesuai dengan model minat individu.

“Implikasi utama dari temuan kami adalah bahwa seseorang harus berhati-hati untuk tidak menafsirkan pentingnya satu variabel untuk satu model sebagai kepentingan keseluruhan,” kata Dong. “Dalam makalah kami, catatan peringatan ini disampaikan melalui contoh yang terkait dengan prediksi residivisme kriminal, di mana model mungkin atau mungkin tidak membuat prediksi berdasarkan ras, tergantung pada seberapa besar mereka menghargai variabel lain seperti usia dan jumlah kejahatan sebelumnya (semua tiga berkorelasi dengan ras karena rasisme sistemik dalam masyarakat). “

Secara keseluruhan, studi yang dilakukan oleh Dong dan Rudin menunjukkan bahwa peneliti yang mengembangkan atau menggunakan teknik pembelajaran mesin harus berhati-hati dalam menyatakan bahwa satu model berharga untuk aplikasi tertentu, karena mungkin ada model lain yang dapat mencapai kinerja yang sebanding atau lebih baik, tetapi berfokus pada variabel yang lebih penting. Awan kepentingan variabel dapat segera diterapkan ke berbagai bidang, membuka jalan untuk lebih memahami dan menggunakan model pembelajaran mesin prediktif.

“Kami hanya memberikan beberapa contoh dalam prediksi residivisme dan visi komputer, tetapi kami berharap orang lain menggunakannya untuk mempertimbangkan ketidakpastian secara cermat dalam variabel penting untuk model mereka sendiri,” kata Dong. “Dalam hal penelitian, kami menyajikan satu cara untuk memvisualisasikan VIC (melalui proyeksi ke dua variabel), tetapi ada banyak pertanyaan ilmiah yang menarik tentang bagaimana melakukan pengambilan sampel untuk lebih mendekati VIC untuk kasus dimensi tinggi, dan pertanyaan lain tentang bagaimana untuk memvisualisasikan VIC berdimensi tinggi. ”


Tim menemukan metode baru untuk meningkatkan prediksi


Informasi lebih lanjut:
Menjelajahi awan variabel kepentingan untuk kumpulan semua model yang baik. Kecerdasan Mesin Alam(2020). DOI: 10.1038 / s42256-020-00264-0.

© 2021 Science X Network

Kutipan: Kerangka kerja untuk menilai pentingnya variabel untuk model prediksi yang berbeda (2021, 12 Januari) diambil 12 Januari 2021 dari https://techxplore.com/news/2021-01-framework-importance-variables.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.


Halaman Ini Di Persembahkan Oleh : Toto SGP