Neural Document Unwarping using Coupled Grids

要約

ページの折れ曲がりやシワを撮影した写真から、印刷物の本来の平坦な外観を復元することは、日常的によくある問題である。本論文では、グリッドベースの単一画像ドキュメントの歪み補正のための新しい手法を提案する。本手法は、マルチタスクでドキュメントの3Dグリッドメッシュと対応する2Dアンワープグリッドを予測し、3Dオブジェクトの形状とその2D画像の間の結合を暗黙的に符号化する、深い完全畳み込みニューラルネットワークを介して幾何歪み補正を実行する。UVDocは、擬似フォトリアリスティックな文書画像と、グリッドベースの物理的な3Dおよびアンワープ情報を組み合わせたデータセットで、アンワープモデルの学習を、一般的に使用されている合成Doc3Dデータセットよりもリアルな外観で、かつ物理的に正確なデータで行うことができるようにするものである。このデータセットは、アンワープネットワークの学習に必要な全ての情報でラベル付けされており、一般的なドキュメントインザワープのデータセットに見られるグランドトゥルースの欠如に対処するための別の損失関数を設計する必要がない。また、合成画像と擬似フォトリアリスティック画像の組み合わせで学習させたデュアルタスク反り直しネットワークが、DocUNetベンチマークデータセットで最先端のパフォーマンスを達成したことを示す徹底的な評価も含まれています。我々のコード、結果、UVDocデータセットは、発表と同時に一般に公開される予定である。

要約(オリジナル)

Restoring the original, flat appearance of a printed document from casual photographs of bent and wrinkled pages is a common everyday problem. In this paper we propose a novel method for grid-based single-image document unwarping. Our method performs geometric distortion correction via a deep fully convolutional neural network that learns to predict the 3D grid mesh of the document and the corresponding 2D unwarping grid in a multi-task fashion, implicitly encoding the coupling between the shape of a 3D object and its 2D image. We additionally create and publish our own dataset, called UVDoc, which combines pseudo-photorealistic document images with ground truth grid-based physical 3D and unwarping information, allowing unwarping models to train on data that is more realistic in appearance than the commonly used synthetic Doc3D dataset, whilst also being more physically accurate. Our dataset is labeled with all the information necessary to train our unwarping network, without having to engineer separate loss functions that can deal with the lack of ground-truth typically found in document in the wild datasets. We include a thorough evaluation that demonstrates that our dual-task unwarping network trained on a mix of synthetic and pseudo-photorealistic images achieves state-of-the-art performance on the DocUNet benchmark dataset. Our code, results and UVDoc dataset will be made publicly available upon publication.

arxiv情報

著者 Floor Verhoeven,Tanguy Magne,Olga Sorkine-Hornung
発行日 2023-02-06 15:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR パーマリンク