DocBinFormer: A Two-Level Transformer Network for Effective Document Image Binarization

要約

現実には、文書画像に損傷を与え、画像の認識や分析を困難にするさまざまな劣化シナリオが存在します。そのため、バイナリ化は、あらゆる文書分析タスクで最適なパフォーマンスを達成するための基本的かつ重要なステップです。
我々は、効果的な文書画像二値化のためのビジョントランスフォーマーに基づく新しい 2 レベルビジョントランスフォーマー (TL-ViT) アーキテクチャである DocBinFormer (Document Binarization Transformer) を提案します。
提示されたアーキテクチャは、2 レベルのトランスフォーマー エンコーダを採用して、入力画像からグローバルとローカルの両方の特徴表現を効果的にキャプチャします。
これらの補完的な 2 レベル機能は、文書画像の効率的な 2 値化に利用され、その結果、包括的なアプローチでシステム生成された文書画像および手書きの文書画像の結果が向上します。
畳み込み層がないため、トランスフォーマー エンコーダーはピクセル パッチとサブパッチを位置情報とともに使用して直接操作しますが、デコーダーはパッチの潜在表現からクリーンな (2 値化された) 出力イメージを生成します。
画像パッチから情報を抽出するために単純なビジョン トランスフォーマー ブロックを使用する代わりに、提案されたアーキテクチャでは 2 つのトランスフォーマー ブロックを使用して、グローバルおよびローカル スケールで抽出された特徴空間をより広範囲にカバーします。
エンコードされた特徴表現は、対応する 2 値化出力を生成するためにデコーダー ブロックによって使用されます。
さまざまな DIBCO および H-DIBCO ベンチマークに関する広範な実験により、提案されたモデルが 4 つの指標において最先端の技術を上回るパフォーマンスを示すことが示されました。
ソース コードは https://github.com/RisabBiswas/DocBinFormer で公開されます。

要約(オリジナル)

In real life, various degradation scenarios exist that might damage document images, making it harder to recognize and analyze them, thus binarization is a fundamental and crucial step for achieving the most optimal performance in any document analysis task. We propose DocBinFormer (Document Binarization Transformer), a novel two-level vision transformer (TL-ViT) architecture based on vision transformers for effective document image binarization. The presented architecture employs a two-level transformer encoder to effectively capture both global and local feature representation from the input images. These complimentary bi-level features are exploited for efficient document image binarization, resulting in improved results for system-generated as well as handwritten document images in a comprehensive approach. With the absence of convolutional layers, the transformer encoder uses the pixel patches and sub-patches along with their positional information to operate directly on them, while the decoder generates a clean (binarized) output image from the latent representation of the patches. Instead of using a simple vision transformer block to extract information from the image patches, the proposed architecture uses two transformer blocks for greater coverage of the extracted feature space on a global and local scale. The encoded feature representation is used by the decoder block to generate the corresponding binarized output. Extensive experiments on a variety of DIBCO and H-DIBCO benchmarks show that the proposed model outperforms state-of-the-art techniques on four metrics. The source code will be made available at https://github.com/RisabBiswas/DocBinFormer.

arxiv情報

著者 Risab Biswas,Swalpa Kumar Roy,Ning Wang,Umapada Pal,Guang-Bin Huang
発行日 2023-12-06 16:01:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク