Deep Unrestricted Document Image Rectification

要約

近年、文書画像の修正に関して多大な努力が払われてきましたが、既存の高度なアルゴリズムは制限された文書画像の処理に限定されています。つまり、入力画像には完全な文書が組み込まれている必要があります。
キャプチャされた画像にローカルのテキスト領域が含まれるだけの場合、その修正品質は低下し、満足のいくものではありません。
私たちが以前に提案した文書画像修正用の変換支援ネットワークである DocTr も、この制限に悩まされています。
この研究では、入力された歪んだ画像に対する制限のない、文書画像修正のための新しい統合フレームワークである DocTr++ を紹介します。
私たちの主な技術的改善は 3 つの側面から結論付けることができます。
まず、マルチスケール表現の抽出と解析のために階層型エンコーダー/デコーダー構造を採用することで、元のアーキテクチャをアップグレードします。
次に、制限のない歪みのある文書画像と歪みのない対応する文書画像との間のピクセル単位のマッピング関係を再定式化します。
取得されたデータは、無制限のドキュメント画像修正のために DocTr++ をトレーニングするために使用されます。
第三に、整流品質の評価に適用できる実際のテストセットとメトリクスを提供します。
私たちの知る限り、これは、制限のない文書画像を修正するための最初の学習ベースの方法です。
広範な実験が実施され、その結果は私たちの方法の有効性と優位性を実証しています。
私たちは、DocTr++ が一般的な文書画像修正の強力なベースラインとして機能し、学習ベースのアルゴリズムのさらなる進歩と応用を促進することを願っています。
ソース コードと提案されたデータセットは、https://github.com/fh2019ustc/DocTr-Plus で公開されています。

要約(オリジナル)

In recent years, tremendous efforts have been made on document image rectification, but existing advanced algorithms are limited to processing restricted document images, i.e., the input images must incorporate a complete document. Once the captured image merely involves a local text region, its rectification quality is degraded and unsatisfactory. Our previously proposed DocTr, a transformer-assisted network for document image rectification, also suffers from this limitation. In this work, we present DocTr++, a novel unified framework for document image rectification, without any restrictions on the input distorted images. Our major technical improvements can be concluded in three aspects. Firstly, we upgrade the original architecture by adopting a hierarchical encoder-decoder structure for multi-scale representation extraction and parsing. Secondly, we reformulate the pixel-wise mapping relationship between the unrestricted distorted document images and the distortion-free counterparts. The obtained data is used to train our DocTr++ for unrestricted document image rectification. Thirdly, we contribute a real-world test set and metrics applicable for evaluating the rectification quality. To our best knowledge, this is the first learning-based method for the rectification of unrestricted document images. Extensive experiments are conducted, and the results demonstrate the effectiveness and superiority of our method. We hope our DocTr++ will serve as a strong baseline for generic document image rectification, prompting the further advancement and application of learning-based algorithms. The source code and the proposed dataset are publicly available at https://github.com/fh2019ustc/DocTr-Plus.

arxiv情報

著者 Hao Feng,Shaokai Liu,Jiajun Deng,Wengang Zhou,Houqiang Li
発行日 2023-12-17 17:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク