DocSegTr: An Instance-Level End-to-End Document Image Segmentation Transformer

要約

豊富なレイアウトを持つドキュメントを理解することは、情報抽出に向けた重要なステップです。
ビジネス インテリジェンス プロセスでは、その後の意思決定タスクのために、ドキュメントから有用なセマンティック コンテンツを大規模に抽出する必要があることがよくあります。
これに関連して、さまざまなドキュメント オブジェクト (タイトル、セクション、図など) のインスタンス レベルのセグメンテーションが、ドキュメントの分析と理解のコミュニティにとって興味深い問題として浮上しています。
この方向で研究を進めるために、文書画像内の複雑なレイアウトのエンドツーエンドのインスタンス セグメンテーションのために \emph{DocSegTr} と呼ばれるトランスフォーマー ベースのモデルを提示します。
この方法は、セマンティック推論のためにツインアテンションモジュールを採用しており、最先端技術と比較して計算効率が非常に高くなります。
私たちの知る限りでは、これはトランスフォーマーベースのドキュメント セグメンテーションに関する最初の作業です。
PubLayNet、PRIMA、Historical Japanese (HJ)、TableBank などの競合ベンチマークに関する広範な実験により、モデルが 89.4、40.3、83.4、および 93.3 の平均精度で、既存の最先端のアプローチと同等またはそれ以上のセグメンテーション パフォーマンスを達成したことが実証されました。
.
このシンプルで柔軟なフレームワークは、ドキュメント画像のインスタンス レベルの認識タスクの有望なベースラインとして機能する可能性があります。

要約(オリジナル)

Understanding documents with rich layouts is an essential step towards information extraction. Business intelligence processes often require the extraction of useful semantic content from documents at a large scale for subsequent decision-making tasks. In this context, instance-level segmentation of different document objects (title, sections, figures etc.) has emerged as an interesting problem for the document analysis and understanding community. To advance the research in this direction, we present a transformer-based model called \emph{DocSegTr} for end-to-end instance segmentation of complex layouts in document images. The method adapts a twin attention module, for semantic reasoning, which helps to become highly computationally efficient compared with the state-of-the-art. To the best of our knowledge, this is the first work on transformer-based document segmentation. Extensive experimentation on competitive benchmarks like PubLayNet, PRIMA, Historical Japanese (HJ) and TableBank demonstrate that our model achieved comparable or better segmentation performance than the existing state-of-the-art approaches with the average precision of 89.4, 40.3, 83.4 and 93.3. This simple and flexible framework could serve as a promising baseline for instance-level recognition tasks in document images.

arxiv情報

著者 Sanket Biswas,Ayan Banerjee,Josep Lladós,Umapada Pal
発行日 2022-09-21 15:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク