The Effects of Character-Level Data Augmentation on Style-Based Dating of Historical Manuscripts

要約

歴史的写本の制作年代を特定することは、古文書を研究する際の古学者の主な目標の 1 つです。
自動化された方法は、より正確に日付を推定するための客観的なツールを古学者に提供できます。
以前は、手書きスタイルが時代とともに変化するという仮説に基づいて、デジタル化された歴史的写本の日付を記入するために統計機能が使用されていました。
ただし、そのようなドキュメントがまばらに入手できることは、堅牢なシステムを取得する上で課題となります。
したがって、この記事の研究では、歴史的写本の年代測定に対するデータ拡張の影響を調査しています。
線形サポート ベクター マシンは、中世の古文書尺度、初期のアラム語の写本、死海文書など、さまざまなコレクションの歴史的な写本から抽出されたテクスチャおよび書記素ベースの特徴に対する k 倍の交差検証でトレーニングされました。
結果は、拡張データを使用したトレーニング モデルが、累積スコアで 1% ~ 3% 日付を記入した歴史的原稿のパフォーマンスを向上させることを示しています。
さらに、これは、機能とドキュメントのスクリプトに固有のモデルを考慮することにより、さらなる拡張の可能性を示しています。

要約(オリジナル)

Identifying the production dates of historical manuscripts is one of the main goals for paleographers when studying ancient documents. Automatized methods can provide paleographers with objective tools to estimate dates more accurately. Previously, statistical features have been used to date digitized historical manuscripts based on the hypothesis that handwriting styles change over periods. However, the sparse availability of such documents poses a challenge in obtaining robust systems. Hence, the research of this article explores the influence of data augmentation on the dating of historical manuscripts. Linear Support Vector Machines were trained with k-fold cross-validation on textural and grapheme-based features extracted from historical manuscripts of different collections, including the Medieval Paleographical Scale, early Aramaic manuscripts, and the Dead Sea Scrolls. Results show that training models with augmented data improve the performance of historical manuscripts dating by 1% – 3% in cumulative scores. Additionally, this indicates further enhancement possibilities by considering models specific to the features and the documents’ scripts.

arxiv情報

著者 Lisa Koopmans,Maruf A. Dhali,Lambert Schomaker
発行日 2022-12-15 15:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク