Sistem untuk menghasilkan teks peka konteks untuk gambar berita
Tele

Sistem untuk menghasilkan teks peka konteks untuk gambar berita


Dengan adanya artikel berita dan gambar (atas), model peneliti menghasilkan caption yang relevan (bawah) dengan memperhatikan konteks yang terkait dengan gambar tersebut. Skor perhatian pada patch gambar dan teks artikel ditampilkan saat decoder menghasilkan kata ‘Morgan’. Tambalan gambar dengan perhatian lebih tinggi memiliki warna yang lebih terang, sementara kata-kata yang sangat diperhatikan berwarna merah. Garis oranye menunjuk ke daerah yang paling banyak dikunjungi. Kredit: Tran, Mathews & Xie.

Sistem komputer yang dapat secara otomatis menghasilkan keterangan gambar telah ada selama beberapa tahun. Meskipun banyak dari teknik ini bekerja dengan sangat baik, teks yang dihasilkan biasanya generik dan agak tidak menarik, berisi deskripsi sederhana seperti “anjing menggonggong” atau “pria sedang duduk di bangku”.

Alasdair Tran, Alexander Mathews dan Lexing Xie di Universitas Nasional Australia telah mencoba mengembangkan sistem baru yang dapat menghasilkan teks gambar yang lebih canggih dan deskriptif. Dalam sebuah makalah yang baru-baru ini diterbitkan sebelumnya di arXiv, mereka memperkenalkan sistem teks otomatis untuk gambar berita yang mempertimbangkan konteks umum di balik gambar sambil membuat teks baru. Tujuan studi mereka adalah memungkinkan pembuatan teks yang lebih detail dan lebih mirip dengan yang ditulis oleh manusia.

“Kami ingin lebih dari sekadar mendeskripsikan detail visual yang jelas dan membosankan dari sebuah gambar,” kata Xie kepada TechXplore. “Lab kami telah melakukan pekerjaan yang membuat teks gambar sentimental dan romantis, dan pekerjaan ini merupakan kelanjutan dari dimensi yang berbeda. Dalam arah baru ini, kami ingin fokus pada konteks.”

Dalam skenario kehidupan nyata, sebagian besar gambar hadir dengan cerita pribadi dan unik. Gambar seorang anak, misalnya, mungkin diambil di pesta ulang tahun atau saat piknik keluarga.

Gambar yang diterbitkan di surat kabar atau situs media online biasanya disertai dengan artikel yang memberikan informasi lebih lanjut tentang peristiwa atau orang tertentu yang ditangkap di dalamnya. Sebagian besar sistem yang ada untuk menghasilkan keterangan gambar tidak mempertimbangkan informasi ini dan memperlakukan gambar sebagai objek terisolasi, sepenuhnya mengabaikan teks yang menyertainya.

“Kami bertanya pada diri sendiri pertanyaan berikut: Dengan adanya artikel berita dan gambar, dapatkah kami membuat model yang dapat mengenali gambar dan teks artikel tersebut untuk menghasilkan teks dengan informasi menarik yang tidak bisa begitu saja disimpulkan dari melihat gambarnya saja? ” Kata Tran.

Ketiga peneliti tersebut kemudian mengembangkan dan menerapkan sistem ujung ke ujung pertama yang dapat menghasilkan teks untuk gambar berita. Keuntungan utama model end-to-end adalah kesederhanaannya. Kesederhanaan ini pada akhirnya memungkinkan model peneliti menjadi kaya secara linguistik dan menghasilkan pengetahuan dunia nyata seperti nama orang dan tempat.

Sistem untuk menghasilkan teks peka konteks untuk gambar berita

Ringkasan model. Kiri: Dekoder dengan empat blok transformator; Kanan: Pembuat enkode untuk artikel, gambar, wajah, dan objek. Dekoder mengambil token pasangan byte (lingkaran biru di bagian bawah) sebagai embeddings masukan. Misalnya, masukan di langkah waktu terakhir, 14980, mewakili “ arsh ” dalam “ Varshini ”) dari langkah waktu sebelumnya. Panah abu-abu menunjukkan konvolusi pada langkah waktu terakhir di setiap blok. Panah berwarna menunjukkan perhatian pada empat domain di sebelah kanan: teks artikel (garis hijau), patch gambar (garis kuning), wajah (garis oranye), dan objek (garis biru). Keluaran dekoder terakhir adalah token pasangan byte, yang kemudian digabungkan untuk membentuk keseluruhan kata dan tanda baca. Kredit: Tran, Mathews & Xie.

“Sistem teks berita canggih sebelumnya memiliki ukuran kosakata yang terbatas, dan untuk menghasilkan nama yang langka, mereka harus melalui dua tahap yang berbeda: membuat template seperti” PERSON is standing in LOCATION “; lalu mengisi placeholder dengan nama sebenarnya di teks, “kata Tran. “Kami ingin melewatkan langkah tengah pembuatan template ini, jadi kami menggunakan teknik yang disebut pengkodean pasangan byte, di mana sebuah kata dipecah menjadi banyak sub-bagian yang sering muncul seperti ‘tion’ dan ‘ing.'”

Berbeda dengan sistem pembuatan teks gambar yang dikembangkan sebelumnya, model yang dibuat oleh Tran, Mathews, dan Xie tidak mengabaikan kata-kata langka dalam teks, tetapi memecahnya dan menganalisisnya. Ini nantinya memungkinkannya untuk menghasilkan teks yang berisi kosakata yang tidak dibatasi berdasarkan sekitar 50.000 subkata.

“Kami juga mengamati bahwa pada karya-karya sebelumnya, judulnya cenderung menggunakan bahasa yang sederhana, seolah-olah ditulis oleh siswa sekolah dan bukan oleh jurnalis profesional,” jelas Tran. “Kami menemukan bahwa ini sebagian karena penggunaan arsitektur model khusus yang dikenal sebagai LSTM (memori jangka pendek).”

Arsitektur LTSM telah digunakan secara luas dalam beberapa tahun terakhir, terutama untuk nomor model atau urutan kata. Namun, model ini tidak selalu bekerja dengan baik, karena mereka cenderung melupakan awal dari urutan yang sangat panjang dan membutuhkan waktu lama untuk dilatih.

Untuk mengatasi keterbatasan ini, komunitas riset di bidang pemodelan bahasa dan terjemahan mesin baru-baru ini mulai mengadopsi jenis arsitektur baru, yang disebut transformator, dengan hasil yang sangat menjanjikan. Terkesan dengan performa model ini dalam studi sebelumnya, Tran, Mathews, dan Xie memutuskan untuk menyesuaikan salah satunya dengan tugas pembuatan teks gambar. Hebatnya, mereka menemukan bahwa teks yang dihasilkan oleh arsitektur transformator mereka jauh lebih kaya dalam bahasa daripada yang dihasilkan oleh model LSTM.

“Salah satu komponen algoritme utama yang memungkinkan lompatan dalam kemampuan bahasa alami ini adalah mekanisme perhatian, yang secara eksplisit menghitung kemiripan antara kata apa pun dalam teks dan bagian mana pun dari konteks gambar (yang bisa berupa teks artikel, tambalan gambar, atau wajah dan objek dalam gambar), “kata Xie. “Ini dilakukan dengan menggunakan fungsi yang menggeneralisasi hasil kali dalam vektor.”

Menariknya, para peneliti mengamati bahwa mayoritas gambar yang diterbitkan di surat kabar menampilkan orang. Ketika mereka menganalisis gambar yang diterbitkan di Waktu New York, misalnya, mereka menemukan bahwa tiga perempat dari mereka mengandung setidaknya satu wajah.

Sistem untuk menghasilkan teks peka konteks untuk gambar berita

Tangkapan layar dari aplikasi demo sistem teks, yang dapat diakses di https://transform-and-tell.ml/. Kredit: Tran, Mathews & Xie.

Berdasarkan pengamatan ini, Tran, Mathews dan Xie memutuskan untuk menambahkan dua modul tambahan ke model mereka: satu khusus untuk mendeteksi wajah dan yang lainnya untuk mendeteksi objek. Kedua modul ini ditemukan untuk meningkatkan keakuratan yang dengannya model mereka dapat mengidentifikasi nama orang dalam gambar dan melaporkannya dalam keterangan yang dibuatnya.

“Membuat mesin berpikir seperti manusia selalu menjadi tujuan penting penelitian kecerdasan buatan,” kata Tran. “Kami bisa selangkah lebih dekat ke tujuan ini dengan membangun model yang dapat menggabungkan pengetahuan dunia nyata tentang nama dalam teks yang ada.”

Dalam evaluasi awal, sistem teks gambar mencapai hasil yang luar biasa, karena dapat menganalisis teks yang panjang dan mengidentifikasi bagian yang paling menonjol, sehingga menghasilkan teks yang sesuai. Selain itu, keterangan yang dihasilkan oleh model biasanya selaras dengan gaya penulisan Waktu New York, yang merupakan sumber utama data pelatihannya.

Demo sistem teks ini, yang diberi nama “Transform and Tell,” sudah tersedia secara online. Di masa mendatang, jika versi lengkap dibagikan kepada publik, jurnalis dan spesialis media lainnya dapat membuat teks untuk gambar berita dengan lebih cepat dan lebih efisien.

“Model yang kami miliki selama ini hanya bisa mengikuti artikel yang ada sekarang,” kata Tran. “Namun, ketika kita melihat artikel berita, kita dapat dengan mudah menghubungkan orang dan peristiwa yang disebutkan dalam teks dengan orang lain dan peristiwa yang telah kita baca tentang masa lalu. Salah satu arah yang mungkin untuk penelitian di masa mendatang adalah dengan memberikan model kemampuan untuk juga melihat artikel serupa lainnya, atau ke sumber pengetahuan latar belakang seperti Wikipedia. Hal ini akan memberikan model konteks yang lebih kaya, memungkinkan model menghasilkan teks yang lebih menarik. “

Dalam studi masa depan mereka, Tran, Mathews, dan Xie juga ingin melatih model mereka untuk menyelesaikan tugas yang sedikit berbeda dari yang ditangani dalam pekerjaan terbaru mereka, yaitu memilih gambar yang cocok dengan artikel dari database besar, berdasarkan teks artikel. Mekanisme perhatian model mereka juga memungkinkannya mengidentifikasi tempat terbaik untuk gambar di dalam teks, yang pada akhirnya dapat mempercepat proses penerbitan berita.

“Arah penelitian lain yang mungkin adalah mengambil arsitektur transformator yang sudah kita miliki dan menerapkannya ke domain yang berbeda seperti menulis bagian teks yang lebih panjang atau meringkas pengetahuan latar belakang terkait,” kata Xie. “Tugas peringkasan sangat penting di era saat ini karena banyaknya data yang dihasilkan setiap hari. Salah satu aplikasi yang menyenangkan adalah membuat model menganalisis yang baru. arXiv makalah dan menyarankan konten yang menarik untuk rilis berita ilmiah seperti artikel ini yang sedang ditulis. ”


Ekstensi browser membantu tunanetra menafsirkan gambar online


Informasi lebih lanjut:
Transformasi dan beri tahu: teks gambar berita yang sadar entitas. arXiv: 2004.08070 [cs.CV]. arxiv.org/abs/2004.08070

Informasi jurnal:
arXiv

© 2020 Science X Network

Kutipan: Sistem untuk menghasilkan teks peka konteks untuk gambar berita (2020, 18 Mei) diambil pada 28 November 2020 dari https://techxplore.com/news/2020-05-context-aware-captions-news-images.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.


Halaman Ini Di Persembahkan Oleh : Pengeluaran SDY