Pembelajaran mesin dan data besar membuka kunci arsip Eropa
Machine

Pembelajaran mesin dan data besar membuka kunci arsip Eropa


Model AI yang dapat dilatih untuk mengenali dan menyalin dokumen tulisan tangan bersejarah membantu mendigitalkan arsip nasional dan kota. Kredit: stock.com/licenced di bawah CC0

Dari perang hingga pernikahan, sejarah Eropa disimpan dalam miliaran halaman arsip di seluruh benua. Meskipun banyak arsip mencoba menjadikan dokumen mereka publik, menemukan informasi di dalamnya tetap merupakan urusan teknologi rendah. Pindaian halaman sederhana tidak menawarkan metadata seperti tanggal, nama, lokasi yang sering menarik minat peneliti. Menyalin informasi ini untuk digunakan nanti juga memakan waktu.

Masalah-masalah ini terkenal di Amsterdam, yang mencoba mengungkap seluruh arsipnya. Untuk catatan notaris saja ‘ada sekitar tiga setengah kilometer di kertas, “kata Pauline van den Heuvel, seorang arsiparis di Amsterdam City Archives di Belanda. Itu sekitar 11.800 halaman kertas A4 yang diletakkan ujung-ke-ujung. Total koleksi sekitar 50km panjangnya, setara dengan 170.000 halaman A4. “Kami tahu itu sangat penting (dokumen), tapi ini benar-benar lubang hitam.”

Dia mengatakan bahwa merekam nama-nama yang tersedia dalam dokumen-dokumen ini secara manual biasanya membutuhkan kerja puluhan tahun dan dana.

Beberapa tahun yang lalu, arsip bermitra dengan proyek READ dan platform Transkribusnya, yang menawarkan cara baru kepada para pengarsip untuk menyalin dan menelusuri dokumen sejarah mereka. Platform online memungkinkan pengguna untuk melatih model pengenalan tulisan tangan komputer untuk mentranskripsikan dokumen bersejarah yang ditulis dengan tangan dalam berbagai bahasa Eropa.

Pengguna melatih model dengan 50 hingga 100 halaman transkripsi yang ada atau yang ditranskripsikan secara manual ke dalam sistem. Setelah dilatih, model tersebut menggunakan pembelajaran mesin untuk membandingkan pola tulisan tangan yang sekarang diketahuinya dengan dokumen yang ingin ditranskripsikan pengguna. Model otomatis mentranskripsikan baris demi baris. Agar berfungsi, dokumen baru harus dengan tulisan tangan yang sama atau mirip dengan model yang telah dilihat sebelumnya.

Sejauh ini pengguna telah melatih lebih dari 7.700 model individu, kata Dr. Günter Mühlberger dari Universitas Innsbruck, Austria, yang mengkoordinasikan proyek tersebut.

Pengguna dapat melatih model mereka sendiri atau memilih model yang sudah ada sebelumnya. Satu model yang tersedia mengenali gaya tulisan tangan filsuf Inggris Jeremy Bentham. Yang lain mengenali gaya tulisan tangan sekretaris Italia abad ke-17. Seorang pengguna dapat menggunakan model tersebut sebagai titik awal untuk pelatihan mereka sendiri.

Setelah Transkribus melakukan tugasnya, pengguna seringkali hanya perlu mengoreksi untuk memperbaiki kesalahan kecil. Meskipun ini mungkin tampak seperti banyak pekerjaan awal, ini dapat menghemat ratusan arsiparis, sejarawan, dan cendekiawan — jika tidak ribuan — jam duduk di depan komputer dan menyalin set lengkap dokumen dengan tangan.

Pembelajaran mesin

Transkribus adalah hasil dari pekerjaan proyek READ untuk mengembangkan teknologi baru untuk lebih mengenali dan mentranskripsikan dokumen tulisan tangan secara otomatis. Transkripsi ini kemudian dapat membantu peneliti mencari kata atau frasa dengan lebih baik di antara miliaran halaman yang disimpan di seluruh arsip benua.

Untuk Transkribus, proyek ini menggunakan algoritme ‘pembelajaran mesin yang diawasi’ yang mengumpulkan data historis saat dipelajari. Data ini dapat digunakan untuk melatih model yang lebih besar.

Pembelajaran mesin dan data besar membuka kunci arsip Eropa

Khotbah tulisan tangan oleh Heinrich Bassermann dari 17 November 1871 adalah salah satu contoh dokumen yang dapat didigitalkan dengan software berbasis AI. Kredit: Universitätsbibliothek Heidelberg / berlisensi CC-BY-SA 4.0

Hal terpenting untuk proyek ini adalah ‘data besar’ – dokumen arsip yang cukup yang dapat memberikan algoritme pemahaman yang kompleks tentang tulisan tangan dan tata letak halaman. Proyek ini bekerja sama dengan lebih dari 70 arsip, universitas, dan organisasi penelitian di seluruh Eropa, termasuk Arsip Negara Hessian di Jerman dan Archivio Storico Ricordi di Italia. “Dari Abad Pertengahan hingga abad ke-20, kami mendapatkan ribuan halaman dengan tata letak berbeda dan (jenis) tulisan berbeda,” kata Dr. Mühlberger.

Dia mengatakan bahwa Transkribus kemungkinan merupakan kumpulan data pelatihan terbesar untuk tulisan tangan historis di seluruh dunia — lebih dari 700.000 dokumen.

Tantangan utama mereka, kata Dr. Mühlberger adalah juga melatih algoritme untuk mengenali seperti apa bentuk baris kata dalam dokumen tulisan tangan. Dia menjelaskan bahwa perangkat lunak ‘pengenalan karakter optik’ konvensional yang digunakan untuk mengubah PDF menjadi teks, misalnya, berfungsi baik dengan dokumen lama yang dicetak karena garis dan spasi kata memiliki tata letak tetap.

“Jika Anda mencoba melakukan hal yang sama dengan tulisan tangan,” katanya, ‘Anda gagal sama sekali. “Kurang lebih tidak mungkin untuk mengisolasi karakter tunggal dalam tulisan kursif, katanya.

Algoritme pembelajaran mesin awal proyek dapat mengenali 85% teks tulisan tangan. Namun, proyek segera menyadari bahwa untuk arsip yang berurusan dengan ribuan halaman arsip tulisan tangan, hal ini tidak cukup baik.

“Delapan puluh lima persen terlihat bagus dalam makalah penelitian, tetapi tidak untuk pengguna yang duduk di depan komputer (mereka),” katanya.

Garis

Peneliti kemudian menggunakan dua metode untuk meningkatkan akurasi program mereka. Mereka pertama-tama mempertimbangkan kembali bagaimana program mereka akan mengenali baris teks. Alih-alih mencari seluruh area blok teks, mereka melatih algoritme untuk mencari ‘garis dasar’ umum yang menjadi sandaran setiap kata, mirip dengan cara halaman bergaris mengajarkan anak-anak untuk menulis secara merata di halaman. “Ini adalah penyederhanaan yang sangat penting,” kata Dr. Mühlberger.

Lebih dari 100.000 garis digambar selama proyek untuk melatih algoritme untuk mengenali seperti apa garis yang umum itu. Jika Transkribus tidak dapat mengenali sebaris teks, pengguna dapat menampilkan program dengan menggambar garis di bawahnya — teknik sederhana yang menghemat waktu berjam-jam dalam jangka panjang.

Perubahan lainnya adalah cara Transkribus mengenali bahasa. Sebelumnya dalam proyek ini mereka menggunakan kamus untuk membantunya mengenali kata-kata dalam dokumen. Tetapi dengan beralih ke hanya mengenali karakter di antara dokumen pelatihan, tim tersebut dapat meningkatkan akurasinya hingga 10%. Mengenali huruf juga berarti algoritme berguna untuk bentuk bahasa lama — dan dapat menangani singkatan. Penambahan baru-baru ini memungkinkan Transkribus untuk memperluas singkatan secara otomatis.

Mereka ingin lebih menyempurnakan cara kerja Transkribus. Salah satu metode melibatkan penggabungan berbagai algoritme yang dilatih pengguna untuk meningkatkan kemampuan pengenalan teks Transkribus secara keseluruhan. Cara lainnya adalah menambahkan fitur baru, seperti menyalin informasi terstruktur termasuk tabel dan formulir, dan memungkinkan arsiparis untuk mencari dan mengoreksi kata kunci secara massal. Dr. Mühlberger mengatakan bahwa mereka berharap dapat meningkatkan pengalaman pengguna dan tata letak platform sehingga sejarawan keluarga skala kecil pun dapat dengan mudah menggunakan Transkribus untuk mengunggah dan mentranskripsikan salinan pindaian dokumen. Struktur koperasi Transkribus berarti setiap uang yang diperoleh dimasukkan kembali ke platform untuk meningkatkan layanannya.

Pembelajaran mesin dan data besar membuka kunci arsip Eropa

Setelah perangkat lunak dilatih untuk mengenali tulisan tangan orang tertentu – seperti surat yang ditulis pada tahun 1889 oleh Giulio Ricordi, manajer umum penerbit Ricordi – maka secara otomatis dapat mentranskripsikan dokumen lain dari penulis yang sama. Kredit: Archivio Storico Ricordi, Milan

Arsip

Sejak diluncurkan pada tahun 2015, jumlah pengguna Transkribus telah meningkat secara substansial. Platform tersebut sekarang memiliki lebih dari 45.000 pengguna, termasuk relawan dari Arsip Kota Amsterdam. Van den Heuvel mengatakan bahwa arsip tersebut mengkooptasi Transkribus ke dalam pekerjaan mereka ketika mereka menyadari bahwa mengindeks nama, tempat dan tanggal di 17th dan 18th dokumen abad akan membutuhkan waktu puluhan tahun kerja. Algoritme Transkribus yang terlatih mampu menyelesaikan proses transkrip 18 proyekth dokumen abad setahun lebih awal dari yang diharapkan. Dia mengatakan bahwa sementara relawan mungkin membutuhkan waktu berbulan-bulan untuk mengindeks 50.000 dokumen yang dipindai, sebuah model, setelah dilatih, hanya membutuhkan beberapa jam. Sebuah tim yang terdiri dari 300 sukarelawan sekarang hanya perlu memeriksa ulang transkripsinya, katanya.

“Ini baru permulaan,” katanya. “Sekarang Anda bisa meneliti pola dalam jumlah besar data, hubungan antarmanusia — ini benar-benar penelitian baru.” Pekerjaan masih dalam proses, meskipun van den Heuvel mengatakan bahwa pekerjaan yang sudah selesai akan dihubungkan ke jaringan institusi Mesin Waktu Eropa menggunakan catatan untuk menjelaskan evolusi sosial dan politik Eropa dari waktu ke waktu.

Ada proyek lain yang sedang berlangsung dengan arsip di seluruh Eropa. Arsip nasional Finlandia juga bekerja untuk merilis arsip nasionalnya dan telah menggunakan Transkribus dalam pekerjaannya sejak 2016. Maria Kallio, peneliti senior di Layanan Arsip Nasional Finlandia mengatakan bahwa arsip tersebut pertama kali menggunakan Transkribus pada beberapa entri buku harian yang mereka miliki. Setelah terkesan dengan hasilnya, mereka memutuskan tugas yang lebih besar.

“Kami telah mulai menyalin catatan pengadilan abad ke-19 ini, yang merupakan koleksi yang sangat besar, hanya sedikit abad ke-19 adalah jutaan halaman,” katanya. “Untuk mempermudah melakukan penelitian pada … catatan kami pikir itu bisa menjadi ide yang baik untuk mencoba teknologi pada mereka.”

Pekerjaan mereka dengan proyek READ telah menyebabkan Arsip Finlandia sekarang merilis sekitar 800.000 dokumen yang ditranskripsikan kepada publik, termasuk catatan hukum akta, hipotek, dan kasus perwalian di sebagian besar Finlandia sejak tanggal 16th abad. Orang-orang sekarang dapat menggunakan catatan ini untuk meneliti sejarah keluarga dan melacak kepemilikan properti.

Masih ada batasan dengan teknologi. Van den Heuvel mengatakan bahwa banyak materi pelatihan dibutuhkan untuk semua varietas 17th abad tulisan tangan untuk membuat model umum yang dapat bekerja pada koleksi yang begitu besar dan beragam seperti milik mereka. Koleksi dengan halaman dalam jumlah besar juga perlu membiayai penggunaan teknologi Transkribus yang gratis digunakan untuk 500 halaman pertama sebelum perlu membeli ‘kredit’ untuk mentranskripsikan lebih banyak halaman. Misalnya, € 18 untuk 120 halaman tulisan tangan berikutnya.

Meskipun demikian, teknologinya disambut baik oleh para peneliti. “Mungkin membuat pertanyaan penelitian semacam ini untuk menjawab pertanyaan yang lebih luas tentang bagaimana hal-hal berkembang,” kata Kallio. “Sekarang Anda benar-benar dapat memahami seluruh materi, dan mengajukan pertanyaan yang sebelumnya tidak mungkin dilakukan.”

Pada akhir September 2020, proyek READ dan perangkat lunak Transkribusnya dinobatkan sebagai salah satu pemenang Penghargaan Horizon Impact Komisi Eropa.


Halaman tulisan tangan Darwin dari ‘On the Origin of Species’ online untuk pertama kalinya


Disediakan oleh Horizon: Majalah Riset & Inovasi Uni Eropa

Kutipan: Pembelajaran mesin dan data besar membuka kunci arsip Eropa (2020, 11 Desember) diambil pada 11 Desember 2020 dari https://techxplore.com/news/2020-12-machine-big-europe-archives.html

Dokumen ini memiliki hak cipta. Selain dari transaksi yang adil untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.


Halaman Ini Di Persembahkan Oleh : Result SGP