The Learnable Typewriter: A Generative Approach to Text Line Analysis

要約

我々は、テキスト行の文字解析と認識に対する生成的な文書固有のアプローチを提示する。我々の主なアイデアは、教師無し多オブジェクト分割法、特にスプライトと呼ばれる限られた視覚的要素に基づいて画像を再構成する方法を基に構築することである。我々のアプローチは、多数の異なる文字を学習することができ、行レベルの注釈がある場合にはそれを活用することができる。我々の貢献は2つある。まず、テキスト行解析のための深い教師なしマルチオブジェクトセグメンテーションアプローチの最初の適応と評価を提供することである。これらの手法は、主に完全に教師なし設定の合成データで評価されてきたため、実際のテキスト画像に適用して定量的に評価できること、そして弱い教師を使って学習できることを実証したことは、大きな進歩であると言える。次に、手書き文字の歴史やバリエーションを研究する古文書学や暗号解析といった新しい応用分野への本手法の可能性を示しています。Google1000データセットの印刷物、Copiale暗号、12世紀から13世紀初頭の歴史的な手書き憲章という、全く異なる3つのデータセットで我々のアプローチを評価する。

要約(オリジナル)

We present a generative document-specific approach to character analysis and recognition in text lines. Our main idea is to build on unsupervised multi-object segmentation methods and in particular those that reconstruct images based on a limited amount of visual elements, called sprites. Our approach can learn a large number of different characters and leverage line-level annotations when available. Our contribution is twofold. First, we provide the first adaptation and evaluation of a deep unsupervised multi-object segmentation approach for text line analysis. Since these methods have mainly been evaluated on synthetic data in a completely unsupervised setting, demonstrating that they can be adapted and quantitatively evaluated on real text images and that they can be trained using weak supervision are significant progresses. Second, we demonstrate the potential of our method for new applications, more specifically in the field of paleography, which studies the history and variations of handwriting, and for cipher analysis. We evaluate our approach on three very different datasets: a printed volume of the Google1000 dataset, the Copiale cipher and historical handwritten charters from the 12th and early 13th century.

arxiv情報

著者 Ioannis Siglidis,Nicolas Gonthier,Julien Gaubil,Tom Monnier,Mathieu Aubry
発行日 2023-02-06 16:46:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク