要約
手書きテキストの認識は、その数多くのアプリケーションのために、過去数十年にわたって広く研究されてきました。
現在、最先端のアプローチは 3 段階のプロセスで構成されています。
ドキュメントはテキスト行に分割され、順序付けられて認識されます。
ただし、この 3 ステップのアプローチには多くの欠点があります。
3 つのステップは独立して扱われますが、密接に関連しています。
エラーは、あるステップから別のステップに蓄積されます。
順序付けステップは、複雑なレイアウトを持つドキュメントや異種ドキュメントへの使用を防止するヒューリスティック ルールに基づいています。
セグメンテーション ステージをトレーニングするための追加の物理セグメンテーション アノテーションの必要性は、このアプローチに固有のものです。
この論文では、ドキュメント全体の手書きテキスト認識をエンドツーエンドで実行することにより、これらの問題に取り組むことを提案します。
この目的のために、孤立した行から段落へ、そして文書全体へと徐々に認識タスクの難易度を上げていきます。
手書き認識タスクの最初の一般的な特徴抽出ステップを設計するために、完全な畳み込みネットワークに基づく行レベルでのアプローチを提案しました。
この予備研究に基づいて、手書きの段落を認識するための 2 つの異なるアプローチを検討しました。
RIMES 2011、IAM、および READ 2016 データセットの段落レベルで最先端の結果に達し、これらのデータセットの行レベルの最先端を上回りました。
最後に、ドキュメント レベルでのテキストとレイアウトの両方の認識に特化した最初のエンド ツー エンドのアプローチを提案しました。
文字とレイアウト トークンは、学習した読み順に従って順次予測されます。
ページ レベルとダブルページ レベルで、RIMES 2009 および READ 2016 データセットでこのタスクを評価するために使用する 2 つの新しいメトリックを提案しました。
要約(オリジナル)
Handwritten text recognition has been widely studied in the last decades for its numerous applications. Nowadays, the state-of-the-art approach consists in a three-step process. The document is segmented into text lines, which are then ordered and recognized. However, this three-step approach has many drawbacks. The three steps are treated independently whereas they are closely related. Errors accumulate from one step to the other. The ordering step is based on heuristic rules which prevent its use for documents with a complex layouts or for heterogeneous documents. The need for additional physical segmentation annotations for training the segmentation stage is inherent to this approach. In this thesis, we propose to tackle these issues by performing the handwritten text recognition of whole document in an end-to-end way. To this aim, we gradually increase the difficulty of the recognition task, moving from isolated lines to paragraphs, and then to whole documents. We proposed an approach at the line level, based on a fully convolutional network, in order to design a first generic feature extraction step for the handwriting recognition task. Based on this preliminary work, we studied two different approaches to recognize handwritten paragraphs. We reached state-of-the-art results at paragraph level on the RIMES 2011, IAM and READ 2016 datasets and outperformed the line-level state of the art on these datasets. We finally proposed the first end-to-end approach dedicated to the recognition of both text and layout, at document level. Characters and layout tokens are sequentially predicted following a learned reading order. We proposed two new metrics we used to evaluate this task on the RIMES 2009 and READ 2016 dataset, at page level and double-page level.
arxiv情報
著者 | Denis Coquenet |
発行日 | 2022-10-20 14:05:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google