Pendekatan pembelajaran mesin baru menghidupkan kembali foto digital
Spotlight

Pendekatan pembelajaran mesin baru menghidupkan kembali foto digital


Proses sintesis tampilan gambar tunggal juga dapat digunakan untuk menghasilkan gambar yang difokuskan ulang (ditampilkan di atas). Kredit: Nima Kalantari

Setiap hari, miliaran foto dan video diposting ke berbagai aplikasi media sosial. Masalah dengan gambar standar yang diambil dengan smartphone atau kamera digital adalah gambar tersebut hanya menangkap pemandangan dari sudut pandang tertentu. Tapi melihatnya dalam kenyataan, kita bisa bergerak dan mengamatinya dari sudut pandang yang berbeda. Ilmuwan komputer sedang bekerja untuk memberikan pengalaman mendalam bagi pengguna yang memungkinkan mereka mengamati pemandangan dari sudut pandang yang berbeda, tetapi memerlukan peralatan kamera khusus yang tidak dapat diakses oleh orang kebanyakan.

Untuk mempermudah prosesnya, Dr. Nima Kalantari, profesor di Departemen Ilmu dan Teknik Komputer di Texas A&M University, dan mahasiswa pascasarjana Qinbo Li telah mengembangkan pendekatan berbasis pembelajaran mesin yang memungkinkan pengguna mengambil satu foto dan menggunakan itu untuk menghasilkan pandangan baru dari tempat kejadian.

“Manfaat dari pendekatan kami adalah sekarang kami tidak terbatas pada menangkap pemandangan dengan cara tertentu,” kata Kalantari. “Kami dapat mengunduh dan menggunakan gambar apa pun di internet, bahkan gambar yang berusia 100 tahun, dan pada dasarnya menghidupkannya kembali dan melihatnya dari berbagai sudut.”

Rincian lebih lanjut tentang pekerjaan mereka dipublikasikan di jurnal tersebut Asosiasi untuk Transaksi Mesin Komputasi pada Grafik.

Sintesis tampilan adalah proses menghasilkan tampilan baru dari suatu objek atau adegan menggunakan gambar yang diambil dari sudut pandang tertentu. Untuk membuat gambar tampilan baru, informasi yang terkait dengan jarak antara objek dalam pemandangan digunakan untuk membuat foto sintetis yang diambil dari kamera virtual yang ditempatkan di berbagai titik dalam pemandangan.

Selama beberapa dekade terakhir, beberapa pendekatan telah dikembangkan untuk mensintesis gambar tampilan baru ini, tetapi banyak di antaranya mengharuskan pengguna untuk secara manual mengambil banyak foto dari pemandangan yang sama dari sudut pandang yang berbeda secara bersamaan dengan konfigurasi dan perangkat keras tertentu, yang sulit dan waktu- mengkonsumsi. Namun, pendekatan ini tidak dirancang untuk menghasilkan gambar tampilan baru dari satu gambar masukan. Untuk mempermudah proses, peneliti mengusulkan untuk melakukan proses yang sama tetapi hanya dengan satu gambar.

“Saat memiliki banyak gambar, Anda bisa memperkirakan lokasi objek di tempat kejadian melalui proses yang disebut triangulasi,” kata Kalantari. “Artinya, Anda dapat mengetahui, misalnya, bahwa ada seseorang di depan kamera dengan rumah di belakangnya, lalu pegunungan di latar belakang. Ini sangat penting untuk sintesis tampilan. Tetapi jika Anda memiliki satu gambar, semuanya informasi itu harus disimpulkan dari satu gambar itu, yang merupakan tantangan. ”

Dengan munculnya pembelajaran mendalam baru-baru ini, yang merupakan subbidang pembelajaran mesin di mana jaringan saraf tiruan belajar dari sejumlah besar data untuk memecahkan masalah yang kompleks, masalah sintesis tampilan gambar tunggal telah menarik banyak perhatian. Meskipun pendekatan ini lebih mudah diakses oleh pengguna, ini merupakan aplikasi yang menantang untuk ditangani oleh sistem karena tidak ada informasi yang cukup untuk memperkirakan lokasi objek di tempat kejadian.

Untuk melatih jaringan pembelajaran mendalam untuk menghasilkan tampilan baru berdasarkan gambar masukan tunggal, mereka menunjukkan sekumpulan besar gambar dan gambar tampilan baru yang sesuai. Meskipun ini merupakan proses yang sulit, jaringan belajar bagaimana menanganinya dari waktu ke waktu. Aspek penting dari pendekatan ini adalah memodelkan adegan masukan untuk membuat proses pelatihan lebih mudah untuk dijalankan oleh jaringan. Tetapi dalam percobaan awal mereka, Kalantari dan Li tidak memiliki cara untuk melakukan ini.

“Kami menyadari bahwa representasi adegan sangat penting untuk melatih jaringan secara efektif,” kata Kalantari.

Agar proses pelatihan lebih mudah dikelola, peneliti mengubah citra masukan menjadi citra multiplane, yaitu jenis representasi 3D berlapis. Pertama, mereka memecah gambar menjadi bidang-bidang pada kedalaman yang berbeda menurut objek dalam pemandangan. Kemudian, untuk menghasilkan foto pemandangan dari sudut pandang baru, mereka memindahkan bidang di depan satu sama lain dengan cara tertentu dan menggabungkannya. Dengan menggunakan representasi ini, jaringan belajar menyimpulkan lokasi objek di tempat kejadian.

Untuk melatih jaringan secara efektif, Kalantari dan Li memperkenalkannya ke kumpulan data lebih dari 2.000 pemandangan unik yang berisi berbagai objek. Mereka mendemonstrasikan bahwa pendekatan mereka dapat menghasilkan gambar tampilan novel berkualitas tinggi dari berbagai adegan yang lebih baik daripada metode canggih sebelumnya.

Para peneliti saat ini sedang berupaya memperluas pendekatan mereka untuk mensintesis video. Karena video pada dasarnya adalah sekumpulan gambar individual yang diputar dengan cepat secara berurutan, mereka dapat menerapkan pendekatan mereka untuk menghasilkan tampilan baru dari masing-masing gambar tersebut secara terpisah pada waktu yang berbeda. Namun saat video yang baru dibuat diputar ulang, gambar berkedip dan tidak konsisten.

“Kami sedang berupaya untuk meningkatkan aspek pendekatan ini agar sesuai untuk menghasilkan video dari berbagai sudut pandang,” kata Kalantari.

Metode sintesis tampilan gambar tunggal juga dapat digunakan untuk menghasilkan gambar yang difokuskan kembali. Ini juga berpotensi digunakan untuk realitas virtual dan aplikasi augmented reality seperti video game dan berbagai jenis perangkat lunak yang memungkinkan Anda menjelajahi lingkungan visual tertentu.


Peneliti melangkah mundur ke gelombang virus manekin untuk mengeksplorasi kedalaman


Informasi lebih lanjut:
Qinbo Li dkk. Mensintesis bidang cahaya dari satu gambar dengan variabel MPI dan dua fusi jaringan, Transaksi ACM pada Grafik (2020). DOI: 10.1145 / 3414685.3417785

Disediakan oleh Texas A&M University College of Engineering

Kutipan: Pendekatan pembelajaran mesin baru menghidupkan kembali foto digital (2021, 4 Mei) diambil pada 4 Mei 2021 dari https://techxplore.com/news/2021-05-machine-learning-approach-digital-photos-life.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten tersebut disediakan untuk tujuan informasi saja.


Halaman Ini Di Persembahkan Oleh : Pengeluaran SGP Hari Ini