GraphKD: Exploring Knowledge Distillation Towards Document Object Detection with Structured Graph Creation

要約

文書内のオブジェクト検出は、階層構造とさまざまな要素間の関係を理解することで、デジタル文書またはスキャンされた文書内の構造要素の識別プロセスを自動化するための重要なステップです。
大規模で複雑なモデルは、高精度を実現しますが、計算コストが高く、メモリを大量に消費する可能性があるため、リソースに制約のあるデバイスへの展開には現実的ではありません。
知識を蒸留することで、より大きなモデルのパフォーマンスの多くを維持した、より小規模で効率的なモデルを作成できます。
ここでは、文書画像内の文書オブジェクトを正確に識別して位置特定するための、グラフベースの知識抽出フレームワークを紹介します。
ここでは、提案レベルの特徴を含むノードと、さまざまな提案領域間の関係を表すエッジを含む構造化グラフを設計します。
また、テキストの偏りを軽減するために、適応ノード サンプリング戦略が重み分布を削減し、非テキスト ノードにより多くの重みを置くように設計されています。
完全なグラフを知識表現としてエンコードし、ローカル情報とグローバル情報の両方を同時に効果的に取得することで、提案された蒸留損失を通じて教師から生徒にグラフを転送します。
競合ベンチマークに関する広範な実験により、提案されたフレームワークが現在の最先端のアプローチよりも優れていることが実証されました。
コードは https://github.com/ayanban011/GraphKD から入手できます。

要約(オリジナル)

Object detection in documents is a key step to automate the structural elements identification process in a digital or scanned document through understanding the hierarchical structure and relationships between different elements. Large and complex models, while achieving high accuracy, can be computationally expensive and memory-intensive, making them impractical for deployment on resource constrained devices. Knowledge distillation allows us to create small and more efficient models that retain much of the performance of their larger counterparts. Here we present a graph-based knowledge distillation framework to correctly identify and localize the document objects in a document image. Here, we design a structured graph with nodes containing proposal-level features and edges representing the relationship between the different proposal regions. Also, to reduce text bias an adaptive node sampling strategy is designed to prune the weight distribution and put more weightage on non-text nodes. We encode the complete graph as a knowledge representation and transfer it from the teacher to the student through the proposed distillation loss by effectively capturing both local and global information concurrently. Extensive experimentation on competitive benchmarks demonstrates that the proposed framework outperforms the current state-of-the-art approaches. The code will be available at: https://github.com/ayanban011/GraphKD.

arxiv情報

著者 Ayan Banerjee,Sanket Biswas,Josep Lladós,Umapada Pal
発行日 2024-02-20 18:25:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク