Penelitian tentara mengarah pada model pelatihan robot yang lebih efektif
Robotics

Penelitian tentara mengarah pada model pelatihan robot yang lebih efektif


Kredit: Laboratorium Penelitian Angkatan Darat

Operasi multi-domain, konsep operasi masa depan Angkatan Darat, membutuhkan agen otonom dengan komponen pembelajaran untuk beroperasi bersama dengan warfighter. Penelitian Angkatan Darat baru mengurangi ketidakpastian kebijakan pembelajaran penguatan pelatihan saat ini sehingga lebih praktis dapat diterapkan pada sistem fisik, terutama robot darat.

Komponen pembelajaran ini akan memungkinkan agen otonom untuk berpikir dan beradaptasi dengan kondisi medan perang yang berubah, kata peneliti Angkatan Darat Dr. Alec Koppel dari Komando Pengembangan Kemampuan Tempur Angkatan Darat AS, yang sekarang dikenal sebagai DEVCOM, Laboratorium Penelitian Angkatan Darat.

Adaptasi yang mendasari dan mekanisme perencanaan ulang terdiri dari penguatan kebijakan berbasis pembelajaran. Membuat kebijakan ini dapat diperoleh secara efisien sangat penting untuk mewujudkan konsep operasi MDO, katanya.

Menurut Koppel, metode gradien kebijakan dalam pembelajaran penguatan adalah dasar untuk algoritme yang dapat diskalakan untuk ruang kontinu, tetapi teknik yang ada tidak dapat menggabungkan tujuan pengambilan keputusan yang lebih luas seperti sensitivitas risiko, batasan keamanan, eksplorasi, dan perbedaan sebelumnya.

Merancang perilaku otonom ketika hubungan antara dinamika dan tujuan kompleks dapat diatasi dengan pembelajaran penguatan, yang baru-baru ini mendapat perhatian untuk menyelesaikan tugas-tugas yang sebelumnya sulit seperti permainan strategi seperti go, catur dan permainan video seperti Atari dan Starcraft II, kata Koppel.

Sayangnya, praktik yang berlaku menuntut kompleksitas sampel astronomi, seperti gameplay simulasi ribuan tahun, katanya. Kompleksitas sampel ini membuat banyak mekanisme pelatihan umum tidak dapat diterapkan pada pengaturan kekurangan data yang diperlukan oleh konteks MDO untuk Kendaraan Tempur Generasi Berikutnya, atau NGCV.

“Untuk memfasilitasi pembelajaran penguatan untuk MDO dan NGCV, mekanisme pelatihan harus meningkatkan efisiensi dan keandalan sampel dalam ruang yang berkelanjutan,” kata Koppel. “Melalui generalisasi skema pencarian kebijakan yang ada untuk utilitas umum, kami mengambil langkah untuk memecahkan hambatan efisiensi sampel yang ada dari praktik yang berlaku dalam pembelajaran penguatan.”

Koppel dan tim risetnya mengembangkan skema pencarian kebijakan baru untuk utilitas umum, yang kompleksitas sampelnya juga ditetapkan. Mereka mengamati bahwa skema pencarian kebijakan yang dihasilkan mengurangi volatilitas akumulasi hadiah, menghasilkan eksplorasi yang efisien dari domain yang tidak diketahui dan mekanisme untuk menggabungkan pengalaman sebelumnya.

“Penelitian ini memberikan kontribusi augmentasi dari Teorema Gradien Kebijakan klasik dalam pembelajaran penguatan,” kata Koppel. “Ini menyajikan skema pencarian kebijakan baru untuk utilitas umum, yang kompleksitas sampelnya juga ditetapkan. Inovasi ini berdampak pada Angkatan Darat AS melalui memungkinkan tujuan pembelajaran penguatan di luar pengembalian kumulatif standar, seperti sensitivitas risiko, batasan keamanan, eksplorasi, dan divergensi. ke sebelumnya. “

Khususnya, dalam konteks robot darat, katanya, data mahal untuk diperoleh.

“Mengurangi volatilitas akumulasi hadiah, memastikan seseorang menjelajahi domain yang tidak diketahui dengan cara yang efisien, atau menggabungkan pengalaman sebelumnya, semua berkontribusi untuk memecahkan hambatan efisiensi sampel yang ada dari praktik yang berlaku dalam pembelajaran penguatan dengan mengurangi jumlah pengambilan sampel acak yang diperlukan untuk optimalisasi kebijakan lengkap, “kata Koppel.

Masa depan penelitian ini sangat cerah, dan Koppel telah mendedikasikan upayanya untuk membuat temuannya dapat diterapkan untuk teknologi inovatif bagi Prajurit di medan perang.

“Saya optimis bahwa robot otonom yang dilengkapi pembelajaran penguatan akan dapat membantu petarung dalam eksplorasi, pengintaian, dan penilaian risiko di medan perang masa depan,” kata Koppel. “Bahwa visi ini menjadi kenyataan adalah penting untuk apa yang memotivasi masalah penelitian mana yang saya dedikasikan sebagai upaya saya.”

Langkah selanjutnya untuk penelitian ini adalah untuk memasukkan tujuan pengambilan keputusan yang lebih luas yang dimungkinkan oleh utilitas umum dalam pembelajaran penguatan ke dalam pengaturan multi-agen dan menyelidiki bagaimana pengaturan interaktif antara agen pembelajaran penguatan menimbulkan penalaran sinergis dan antagonis di antara tim.

Menurut Koppel, teknologi yang dihasilkan dari penelitian ini akan mampu bernalar dalam skenario tim yang tidak pasti.


Tentara meningkatkan kemampuan belajar kawanan drone


Disediakan oleh Laboratorium Riset Angkatan Darat

Kutipan: Penelitian Angkatan Darat mengarah pada model pelatihan robot yang lebih efektif (2020, 29 Desember) diakses 29 Desember 2020 dari https://techxplore.com/news/2020-12-army-effective-robots.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.


Halaman Ini Di Persembahkan Oleh : Data SGP 2020