Solusi statistik untuk memproses kumpulan data yang sangat besar secara efisien dengan batas memori
Machine

Solusi statistik untuk memproses kumpulan data yang sangat besar secara efisien dengan batas memori


Memperkirakan varians jumlah cluster dan ukuran sampel yang maksimumnya dapat memberi kita perkiraan jumlah total cluster untuk keseluruhan sampel. Kredit: Ryo Maezono dari JAIST.

Setiap komputasi berperforma tinggi harus dapat menangani data dalam jumlah besar dalam waktu singkat — aspek penting yang menjadi dasar seluruh bidang (ilmu data, Big Data). Biasanya, langkah pertama untuk mengelola data dalam jumlah besar adalah mengklasifikasikannya berdasarkan atribut yang ditentukan dengan baik atau — seperti yang biasa dilakukan dalam machine learning— “mengelompokkan” ke dalam grup sehingga titik data dalam grup yang sama lebih mirip dengan satu sama lain dibandingkan dengan yang ada di kelompok lain. Namun, untuk kumpulan data yang sangat besar, yang dapat memiliki triliunan titik sampel, akan membosankan untuk bahkan mengelompokkan titik data ke dalam satu cluster tanpa persyaratan memori yang besar.

Masalahnya dapat dirumuskan sebagai berikut: Misalkan kita memiliki alat clustering yang dapat memproses hingga sampel lmax. Alat tersebut mengklasifikasikan l (masukan) sampel ke dalam kelompok M (l) (sebagai keluaran) berdasarkan beberapa atribut. Misalkan jumlah aktual sampel menjadi L dan G = M (L) adalah jumlah total atribut yang ingin kami temukan. Masalahnya adalah jika L jauh lebih besar dari lmax, kami tidak dapat menentukan G karena keterbatasan kapasitas memori, “jelas Profesor Ryo Maezono dari Japan Advanced Institute of Science and Technology (JAIST), yang berspesialisasi dalam teori materi terkondensasi komputasi.

Yang cukup menarik, ukuran sampel yang sangat besar adalah umum dalam ilmu material, di mana kalkulasi yang melibatkan substitusi atom dalam struktur kristal sering kali melibatkan kemungkinan yang berkisar dalam triliunan. Namun, teorema matematika yang disebut teorema Polya, yang menggunakan simetri kristal, sering kali menyederhanakan perhitungan. Sayangnya, teorema Polya hanya berfungsi untuk masalah-masalah yang berkaitan dengan simetri dan oleh karena itu cakupannya terbatas.

Dalam studi terbaru yang diterbitkan di Teori dan Simulasi Lanjutan, tim ilmuwan yang dipimpin oleh Prof. Maezono dan rekannya, Keishu Utimula, Ph.D. dalam ilmu material dari JAIST (Pada tahun 2020) dan penulis pertama studi tersebut, mengusulkan pendekatan berdasarkan keacakan statistik untuk mengidentifikasi G untuk ukuran sampel yang jauh lebih besar (~ triliun) daripada lmax. Idenya, pada dasarnya, adalah memilih sampel berukuran l yang jauh lebih kecil dari L, mengidentifikasi M (l) menggunakan “pengelompokan” pembelajaran mesin, dan mengulangi proses dengan memvariasikan l. Saat l meningkat, perkiraan M (l) menyatu dengan M (L) atau G, asalkan G jauh lebih kecil dari lmax (yang hampir selalu memuaskan). Namun, ini masih merupakan strategi yang mahal secara komputasi, karena sulit untuk mengetahui secara pasti kapan konvergensi telah tercapai.

Untuk mengatasi masalah ini, para ilmuwan menerapkan strategi cerdik lainnya: Mereka memanfaatkan “varian”, atau tingkat penyebaran, dalam M (l). Dari penalaran matematis sederhana, mereka menunjukkan bahwa varians dari M (l), atau V[M(l)], harus memiliki puncak untuk ukuran sampel ~ G. Dengan kata lain, ukuran sampel sesuai dengan maksimum di V[M(l)] adalah sekitar G. Selanjutnya, simulasi numerik mengungkapkan bahwa varian puncak itu sendiri diskalakan sebagai 0,1 kali G, dan dengan demikian merupakan perkiraan yang baik untuk G.

Meskipun hasilnya belum diverifikasi secara matematis, teknik ini menjanjikan untuk menemukan aplikasi dalam komputasi performa tinggi dan pembelajaran mesin. “Metode yang dijelaskan dalam pekerjaan kami memiliki penerapan yang jauh lebih luas daripada teorema Polya dan, oleh karena itu, dapat menangani kategori masalah yang lebih luas. Selain itu, metode ini hanya memerlukan alat pengelompokan pembelajaran mesin untuk menyortir data dan tidak memerlukan memori yang besar atau pengambilan sampel secara keseluruhan. . Ini dapat membuat teknologi pengenalan AI layak untuk ukuran data yang lebih besar bahkan dengan alat pengenalan skala kecil, yang dapat meningkatkan kenyamanan dan ketersediaannya di masa mendatang, “kata Prof. Maezono.


Perhitungan fonon yang berhasil dalam kerangka kuantum Monte Carlo


Informasi lebih lanjut:
Keishu Utimula et al, Stochastic Estimations of the Total Number of Classes for a Clustering memiliki Sampel Sangat Besar untuk Dimasukkan dalam Mesin Clustering, Teori dan Simulasi Lanjutan (2021). DOI: 10.1002 / adts.202000301

Disediakan oleh Japan Advanced Institute of Science and Technology

Kutipan: Solusi statistik untuk memproses kumpulan data yang sangat besar secara efisien dengan batas memori (2021, 1 April) diambil 1 April 2021 dari https://techxplore.com/news/2021-04-statistic-solution-large-datasets-efficiently.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten tersebut disediakan untuk tujuan informasi saja.


Halaman Ini Di Persembahkan Oleh : Result SGP