要約
変形したドキュメント画像修正は、レイアウト分析やテキスト認識などの現実世界のドキュメントを理解するために不可欠です。
ただし、バックグラウンド削除、3D座標予測、テキストラインセグメンテーションなどの現在のマルチタスクメソッドは、タスクとその相互作用の間の補完的な機能を見落としていることがよくあります。
このギャップに対処するために、SalmRecという名前の自己適応可能な学習可能なマルチタスク融合整流ネットワークを提案します。
このネットワークには、幾何学的歪みの認識を適応的に改善し、特徴の相補性を高め、負の干渉を減らすためのタスク間の特徴集約モジュールが組み込まれています。
また、グローバルタスク内とローカルタスク間の両方の機能を効果的にバランスさせるためのゲーティングメカニズムを導入します。
2つの英語のベンチマーク(DIR300とDocunet)と1つの中国のベンチマーク(DoCreal)での実験結果は、この方法が修正性能を大幅に改善することを示しています。
アブレーション研究では、さまざまなタスクが脱水することと、提案されたモジュールの有効性を強調しています。
要約(オリジナル)
Deformed document image rectification is essential for real-world document understanding tasks, such as layout analysis and text recognition. However, current multi-task methods — such as background removal, 3D coordinate prediction, and text line segmentation — often overlook the complementary features between tasks and their interactions. To address this gap, we propose a self-adaptive learnable multi-task fusion rectification network named SalmRec. This network incorporates an inter-task feature aggregation module that adaptively improves the perception of geometric distortions, enhances feature complementarity, and reduces negative interference. We also introduce a gating mechanism to balance features both within global tasks and between local tasks effectively. Experimental results on two English benchmarks (DIR300 and DocUNet) and one Chinese benchmark (DocReal) demonstrate that our method significantly improves rectification performance. Ablation studies further highlight the positive impact of different tasks on dewarping and the effectiveness of our proposed module.
arxiv情報
著者 | Heng Li,Xiangping Wu,Qingcai Chen |
発行日 | 2025-05-09 13:35:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google