Geometry Restoration and Dewarping of Camera-Captured Document Images

要約

この研究は、検出、セグメンテーション、ジオメトリ復元、歪み補正のアルゴリズムを使用して、カメラでキャプチャされた紙文書のデジタル画像のトポロジーを復元する方法の開発に焦点を当てています。
私たちの方法論では、文書の輪郭検出にディープラーニング (DL) を使用し、続いてコンピューター ビジョン (CV) を使用して、3 次多項式補間を使用してトポロジカル 2D グリッドを作成し、画像を再マッピングすることで非線形歪みを修正します。
従来の CV メソッドを使用すると、必要な計算リソースとメモリが大幅に少なくなるため、ドキュメント トポロジの復元プロセスがより効率的かつ高速になります。
私たちは、ドキュメントの自動歪み補正と再構築のための新しいパイプラインを、その効率性を実証するためのフレームワークと注釈付きデータセットとともに開発しました。
私たちの実験では、視覚的にも、光学式文字認識 (OCR) やジオメトリ復元による文書の可読性の点でも、私たちの手法の有望性と既存のベンチマーク (モバイル アプリや RectiNet、DocGeoNet、DocTr++ などの一般的な DL ソリューションを含む) に対するその優位性が確認されています。
メトリクス。
これにより、紙文書の高品質なデジタルコピーを作成し、OCR システムの効率を向上させる道が開かれます。
プロジェクトページ: https://github.com/Horizo​​nParadox/DRCCBI

要約(オリジナル)

This research focuses on developing a method for restoring the topology of digital images of paper documents captured by a camera, using algorithms for detection, segmentation, geometry restoration, and dewarping. Our methodology employs deep learning (DL) for document outline detection, followed by computer vision (CV) to create a topological 2D grid using cubic polynomial interpolation and correct nonlinear distortions by remapping the image. Using classical CV methods makes the document topology restoration process more efficient and faster, as it requires significantly fewer computational resources and memory. We developed a new pipeline for automatic document dewarping and reconstruction, along with a framework and annotated dataset to demonstrate its efficiency. Our experiments confirm the promise of our methodology and its superiority over existing benchmarks (including mobile apps and popular DL solutions, such as RectiNet, DocGeoNet, and DocTr++) both visually and in terms of document readability via Optical Character Recognition (OCR) and geometry restoration metrics. This paves the way for creating high-quality digital copies of paper documents and enhancing the efficiency of OCR systems. Project page: https://github.com/HorizonParadox/DRCCBI

arxiv情報

著者 Valery Istomin,Oleg Pereziabov,Ilya Afanasyev
発行日 2025-01-09 15:31:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク