Efficient few-shot learning for pixel-precise handwritten document layout analysis

要約

レイアウト分析は、古代の手書き文書の分析において最も重要なタスクであり、光学式文字認識や自動転記などの後続のタスクの簡素化に向けた基本的なステップを表しています。
ただし、この問題を解決するために採用されたアプローチの多くは、完全に教師ありの学習パラダイムに依存しています。
これらのシステムはこのタスクで非常に優れたパフォーマンスを発揮しますが、欠点は、トレーニング セット全体のピクセル精度のテキスト ラベル付けが非常に時間のかかるプロセスであり、この種の情報が実際のシナリオでほとんど利用できないことです。
本稿では、公開されている DIVA-HisDB データセットで現在の最先端の完全教師ありメソッドに匹敵するパフォーマンスを達成する効率的な少数ショット学習フレームワークを提案することにより、この問題に対処します。

要約(オリジナル)

Layout analysis is a task of uttermost importance in ancient handwritten document analysis and represents a fundamental step toward the simplification of subsequent tasks such as optical character recognition and automatic transcription. However, many of the approaches adopted to solve this problem rely on a fully supervised learning paradigm. While these systems achieve very good performance on this task, the drawback is that pixel-precise text labeling of the entire training set is a very time-consuming process, which makes this type of information rarely available in a real-world scenario. In the present paper, we address this problem by proposing an efficient few-shot learning framework that achieves performances comparable to current state-of-the-art fully supervised methods on the publicly available DIVA-HisDB dataset.

arxiv情報

著者 Axel De Nardin,Silvia Zottin,Matteo Paier,Gian Luca Foresti,Emanuela Colombi,Claudio Piciarelli
発行日 2022-10-27 16:03:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク