SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation




– ドキュメントのレイアウト分析は、長期間にわたり、テキストマイニング、識別、グラフベースの表現、視覚的特徴エクストラクションなどを含む多数の解決策が提供され、研究が進められてきた。
– 既存の作品は、ラベル付けされたデータの不足について無視されてきた。
– ソーシャルメディアなどからのデジタルドキュメントの増加と共に、データアノテーションは困難な作業となっている。
– 同著者らは、前処理において地上の真実ラベルやその派生物を持たずに、擬似レイアウトを生成することで、イメージエンコーダをプリトレーニングし、セルフスーパーバイズドフレームワークで文書オブジェクトの表現と位置決めを学習し、オブジェクト検出モデルをファインチューニングするという、完全にビジョンベースのアプローチを用いたドキュメントセグメンテーションのための自己監視アプローチを用いることで、この課題に対処することを提案している。
– このパイプラインは、既存の方法や教師ありの対応物と同等以上のパフォーマンスを発揮することを示し、新しいベンチマークを設定すると共に、パフォーマンスを向上させます。


Document layout analysis is a known problem to the documents research community and has been vastly explored yielding a multitude of solutions ranging from text mining, and recognition to graph-based representation, visual feature extraction, etc. However, most of the existing works have ignored the crucial fact regarding the scarcity of labeled data. With growing internet connectivity to personal life, an enormous amount of documents had been available in the public domain and thus making data annotation a tedious task. We address this challenge using self-supervision and unlike, the few existing self-supervised document segmentation approaches which use text mining and textual labels, we use a complete vision-based approach in pre-training without any ground-truth label or its derivative. Instead, we generate pseudo-layouts from the document images to pre-train an image encoder to learn the document object representation and localization in a self-supervised framework before fine-tuning it with an object detection model. We show that our pipeline sets a new benchmark in this context and performs at par with the existing methods and the supervised counterparts, if not outperforms. The code is made publicly available at:


著者 Subhajit Maity,Sanket Biswas,Siladittya Manna,Ayan Banerjee,Josep Lladós,Saumik Bhattacharya,Umapada Pal
発行日 2023-05-02 03:52:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク