要約
この論文では、テキスト行の検出、行為への分割、書き込みサポートの検出など、文書レイアウト分析に関連する複数のタスクを研究します。
したがって、2 つの異なるアプローチに従って 2 つのディープ ニューラル モデルを提案します。
限られた量のトレーニング データを使用できるなど、ドキュメント処理に伴う困難を考慮したオブジェクト検出のモデルを提案することを目指しています。
この点で、ピクセル レベルの検出モデルと 2 番目のオブジェクト レベルの検出モデルを提案します。
最初に、パラメータが少なく、予測が高速で、少ない数のトレーニング データから正確な予測マスクを取得できる検出モデルを提案します。
多くのデータセットの収集と均一化の戦略を実装しました。これは、サンプル外のドキュメントに対する高度な一般化機能を示す単一行検出モデルのトレーニングに使用されます。
また、Transformer ベースの検出モデルも提案します。
このようなモデルの設計には、ドキュメント画像内のオブジェクト検出のタスクを再定義し、さまざまなアプローチを研究する必要がありました。
この研究に続いて、ピクセル分類によって長方形を囲むオブジェクトの座標を順次予測することからなるオブジェクト検出戦略を提案します。
この戦略により、少数のパラメーターのみで高速なモデルを取得できます。
最後に、産業環境では、多くの場合、注釈の付いていない新しいデータが利用可能です。
したがって、この新しいデータにモデルを適応させる場合、システムに提供する新しい注釈付きサンプルをできるだけ少なくすることが期待されます。
したがって、手動注釈に関連するサンプルの選択は、適応を成功させるために重要です。
この目的のために、オブジェクト検出のためのさまざまなアプローチからの信頼度推定量を提案します。
これらの推定器は、パフォーマンスを最適化しながら、注釈付きデータの量を大幅に削減することを示しています。
要約(オリジナル)
In this thesis, we study multiple tasks related to document layout analysis such as the detection of text lines, the splitting into acts or the detection of the writing support. Thus, we propose two deep neural models following two different approaches. We aim at proposing a model for object detection that considers the difficulties associated with document processing, including the limited amount of training data available. In this respect, we propose a pixel-level detection model and a second object-level detection model. We first propose a detection model with few parameters, fast in prediction, and which can obtain accurate prediction masks from a reduced number of training data. We implemented a strategy of collection and uniformization of many datasets, which are used to train a single line detection model that demonstrates high generalization capabilities to out-of-sample documents. We also propose a Transformer-based detection model. The design of such a model required redefining the task of object detection in document images and to study different approaches. Following this study, we propose an object detection strategy consisting in sequentially predicting the coordinates of the objects enclosing rectangles through a pixel classification. This strategy allows obtaining a fast model with only few parameters. Finally, in an industrial setting, new non-annotated data are often available. Thus, in the case of a model adaptation to this new data, it is expected to provide the system as few new annotated samples as possible. The selection of relevant samples for manual annotation is therefore crucial to enable successful adaptation. For this purpose, we propose confidence estimators from different approaches for object detection. We show that these estimators greatly reduce the amount of annotated data while optimizing the performances.
arxiv情報
| 著者 | Mélodie Boillet | 
| 発行日 | 2023-01-27 14:45:45+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
