Set data pembelajaran mesin utama memiliki puluhan ribu kesalahan
Ai

Set data pembelajaran mesin utama memiliki puluhan ribu kesalahan


Kredit: MIT Computer Science & Artificial Intelligence Lab

Sudah diketahui umum bahwa kumpulan data machine learning memiliki banyak kesalahan, termasuk gambar yang salah label. Tetapi belum banyak penelitian untuk secara sistematis mengukur seberapa sarat kesalahan mereka.

Lebih lanjut, pekerjaan sebelumnya berfokus pada error dalam data pelatihan set data ML. Namun set pengujian adalah yang kami gunakan untuk mengukur status machine learning, dan tidak ada studi yang melihat error sistematis di seluruh set pengujian ML — set yang kami andalkan untuk memahami seberapa baik model ML bekerja.

Dalam sebuah makalah baru, tim yang dipimpin oleh para peneliti di Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) MIT melihat 10 kumpulan data utama yang telah dikutip lebih dari 100.000 kali dan itu termasuk kumpulan data ulasan ImageNet dan Amazon.

Para peneliti menemukan tingkat kesalahan rata-rata 3,4% di semua kumpulan data, termasuk 6% untuk ImageNet, yang bisa dibilang sebagai kumpulan data yang paling banyak digunakan untuk sistem pengenalan gambar populer yang dikembangkan oleh Google dan Facebook.

Bahkan set data digit MNIST mani, yang telah berfungsi sebagai landasan pengenalan digit optik selama 20 tahun terakhir dan telah dijadikan tolok ukur dalam puluhan ribu publikasi ML yang ditinjau oleh rekan sejawat, berisi 15 kesalahan label (divalidasi manusia) dalam set pengujian .

Tim juga membuat demo yang memungkinkan pengguna membaca dengan teliti kumpulan data yang berbeda untuk mengambil sampel berbagai jenis kesalahan yang terjadi, termasuk:

  • gambar yang salah label, seperti satu jenis anjing yang bingung dengan yang lain atau bayi yang bingung mencari puting.
  • Sentimen teks yang salah diberi label, seperti ulasan produk Amazon yang dideskripsikan sebagai negatif padahal sebenarnya positif.
  • Audio video YouTube yang salah diberi label, seperti nada tinggi Ariana Grande yang diklasifikasikan sebagai peluit.

Kredit: MIT Computer Science & Artificial Intelligence Lab

Rekan penulis Curtis Northcutt mengatakan bahwa satu kejutan dari temuan mereka adalah bahwa model yang lebih lemah seperti ResNet-18 seringkali memiliki tingkat kesalahan yang lebih rendah daripada model yang lebih kompleks seperti ResNet-50, tergantung pada prevalensi data yang tidak relevan (“noise”). Northcutt merekomendasikan praktisi ML untuk mempertimbangkan menggunakan model sederhana jika kumpulan data dunia nyata mereka memiliki tingkat kesalahan label 10%.

Hasil tim didasarkan pada banyak pekerjaan yang dilakukan di MIT dalam menciptakan “pembelajaran yang percaya diri”, sub-bidang pembelajaran mesin yang mengamati kumpulan data untuk menemukan dan mengukur kebisingan label. Dengan proyek ini, pembelajaran percaya diri digunakan untuk mengidentifikasi secara algoritme semua kesalahan label sebelum verifikasi manusia.

Tim juga memudahkan peneliti lain untuk mereplikasi hasil mereka dan menemukan kesalahan label dalam kumpulan data mereka sendiri menggunakan cleanlab, paket python sumber terbuka.


Model pembelajaran mesin untuk mendiagnosis COVID-19 belum cocok untuk penggunaan klinis: studi


Disediakan oleh Massachusetts Institute of Technology

Kutipan: Set data machine learning utama memiliki puluhan ribu error (2021, 30 Maret), diambil pada 30 Maret 2021 dari https://techxplore.com/news/2021-03-major-machine-datasets-tens-thousands.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten tersebut disediakan untuk tujuan informasi saja.


Halaman Ini Di Persembahkan Oleh : Toto SGP