私たちの方法論では、文書の輪郭検出にディープラーニング (DL) を使用し、続いてコンピューター ビジョン (CV) を使用して、3 次多項式補間を使用してトポロジカル 2D グリッドを作成し、画像を再マッピングすることで非線形歪みを修正します。
従来の CV メソッドを使用すると、必要な計算リソースとメモリが大幅に少なくなるため、ドキュメント トポロジの復元プロセスがより効率的かつ高速になります。
私たちの実験では、視覚的にも、光学式文字認識 (OCR) やジオメトリ復元による文書の可読性の点でも、私たちの手法の有望性と既存のベンチマーク (モバイル アプリや RectiNet、DocGeoNet、DocTr++ などの一般的な DL ソリューションを含む) に対するその優位性が確認されています。
これにより、紙文書の高品質なデジタルコピーを作成し、OCR システムの効率を向上させる道が開かれます。
プロジェクトページ: https://github.com/HorizonParadox/DRCCBI
This research focuses on developing a method for restoring the topology of digital images of paper documents captured by a camera, using algorithms for detection, segmentation, geometry restoration, and dewarping. Our methodology employs deep learning (DL) for document outline detection, followed by computer vision (CV) to create a topological 2D grid using cubic polynomial interpolation and correct nonlinear distortions by remapping the image. Using classical CV methods makes the document topology restoration process more efficient and faster, as it requires significantly fewer computational resources and memory. We developed a new pipeline for automatic document dewarping and reconstruction, along with a framework and annotated dataset to demonstrate its efficiency. Our experiments confirm the promise of our methodology and its superiority over existing benchmarks (including mobile apps and popular DL solutions, such as RectiNet, DocGeoNet, and DocTr++) both visually and in terms of document readability via Optical Character Recognition (OCR) and geometry restoration metrics. This paves the way for creating high-quality digital copies of paper documents and enhancing the efficiency of OCR systems. Project page: https://github.com/HorizonParadox/DRCCBI
著者 | Valery Istomin,Oleg Pereziabov,Ilya Afanasyev |
発行日 | 2025-01-06 17:12:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google