Dynamic Relation Transformer for Contextual Text Block Detection


コンテキスト テキスト ブロック検出 (CTBD) は、複雑な自然シーンの中で一貫したテキスト ブロックを識別するタスクです。
これまでの方法論では、CTBD をコンピューター ビジョン内の視覚的関係抽出の課題として、または自然言語処理の観点からのシーケンス モデリングの問題として扱ってきました。
CTBD をグラフ生成問題として組み立てる新しいフレームワークを紹介します。
この方法論は 2 つの重要な手順で構成されます。1 つは個々のテキスト単位をグラフ ノードとして識別すること、もう 1 つはこれらの単位間の連続した読み取り順序関係をグラフ エッジとして識別することです。
ノード検出に DQ-DETR の最先端機能を活用することで、当社のフレームワークは、エッジ生成専用の新しいメカニズムである Dynamic Relation Transformer (DRFormer) を統合することでさらに革新されます。
DRFormer には、動的グラフ構造改善プロセスを巧みに管理するデュアル インタラクティブ トランスフォーマー デコーダが組み込まれています。
この反復プロセスを通じて、モデルは体系的にグラフの忠実度を高め、最終的にはコンテキスト テキスト ブロックの検出精度が向上します。
SCUT-CTW-Context データセットと ReCTS-Context データセットの両方に対して行われた包括的な実験評価により、私たちの手法が最先端の結果を達成することが実証され、CTBD 分野の進歩におけるグラフ生成フレームワークの有効性と可能性が強調されています。


Contextual Text Block Detection (CTBD) is the task of identifying coherent text blocks within the complexity of natural scenes. Previous methodologies have treated CTBD as either a visual relation extraction challenge within computer vision or as a sequence modeling problem from the perspective of natural language processing. We introduce a new framework that frames CTBD as a graph generation problem. This methodology consists of two essential procedures: identifying individual text units as graph nodes and discerning the sequential reading order relationships among these units as graph edges. Leveraging the cutting-edge capabilities of DQ-DETR for node detection, our framework innovates further by integrating a novel mechanism, a Dynamic Relation Transformer (DRFormer), dedicated to edge generation. DRFormer incorporates a dual interactive transformer decoder that deftly manages a dynamic graph structure refinement process. Through this iterative process, the model systematically enhances the graph’s fidelity, ultimately resulting in improved precision in detecting contextual text blocks. Comprehensive experimental evaluations conducted on both SCUT-CTW-Context and ReCTS-Context datasets substantiate that our method achieves state-of-the-art results, underscoring the effectiveness and potential of our graph generation framework in advancing the field of CTBD.


著者 Jiawei Wang,Shunchi Zhang,Kai Hu,Chixiang Ma,Zhuoyao Zhong,Lei Sun,Qiang Huo
発行日 2024-01-17 14:17:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク