要約
曲がったりしわになったページの何気ない写真から、印刷された文書の元の平らな外観を復元することは、日常的によくある問題です。
この論文では、グリッドベースの単一画像ドキュメントの歪みを戻すための新しい方法を提案します。
私たちの方法は、完全畳み込みディープ ニューラル ネットワークを介して幾何学的歪み補正を実行します。このネットワークは、文書の 3D グリッド メッシュと対応する 2D 歪みを解消するグリッドをデュアルタスク方式で予測することを学習し、3D 紙の形状間の結合を暗黙的にエンコードします。
およびその 2D 画像。
一般的に使用されている合成 Doc3D データセットよりも外観がより現実的なデータでアンワーピング モデルをトレーニングできるようにするために、疑似フォトリアリスティックなドキュメント画像と物理的に正確な 3D 形状およびアンワーピング機能を組み合わせた UVDoc と呼ばれる独自のデータセットを作成して公開しています。
注釈。
私たちのデータセットには、アンワーピング ネットワークをトレーニングするために必要なすべての情報がラベル付けされています。野生のデータセットのドキュメントによく見られるグラウンド トゥルースの欠如に対処できる個別の損失関数を設計する必要はありません。
私たちは詳細な評価を実行し、新しい疑似フォトリアリスティック データセットを組み込むことで、比較的小規模なネットワーク アーキテクチャが DocUNet ベンチマークで最先端の結果を達成できることを実証しました。
UVDoc データセットの疑似フォトリアリスティックな性質により、照明補正された MS-SSIM などのより優れた新しい評価方法が可能になることを示します。
我々は、そのような評価を容易にする新しいベンチマーク データセットを提供し、歪みを戻した後の線の真直度を定量化する指標を提案します。
私たちのコード、結果、UVDoc データセットは https://github.com/tanguymagne/UVDoc で入手できます。
要約(オリジナル)
Restoring the original, flat appearance of a printed document from casual photographs of bent and wrinkled pages is a common everyday problem. In this paper we propose a novel method for grid-based single-image document unwarping. Our method performs geometric distortion correction via a fully convolutional deep neural network that learns to predict the 3D grid mesh of the document and the corresponding 2D unwarping grid in a dual-task fashion, implicitly encoding the coupling between the shape of a 3D piece of paper and its 2D image. In order to allow unwarping models to train on data that is more realistic in appearance than the commonly used synthetic Doc3D dataset, we create and publish our own dataset, called UVDoc, which combines pseudo-photorealistic document images with physically accurate 3D shape and unwarping function annotations. Our dataset is labeled with all the information necessary to train our unwarping network, without having to engineer separate loss functions that can deal with the lack of ground-truth typically found in document in the wild datasets. We perform an in-depth evaluation that demonstrates that with the inclusion of our novel pseudo-photorealistic dataset, our relatively small network architecture achieves state-of-the-art results on the DocUNet benchmark. We show that the pseudo-photorealistic nature of our UVDoc dataset allows for new and better evaluation methods, such as lighting-corrected MS-SSIM. We provide a novel benchmark dataset that facilitates such evaluations, and propose a metric that quantifies line straightness after unwarping. Our code, results and UVDoc dataset are available at https://github.com/tanguymagne/UVDoc.
arxiv情報
著者 | Floor Verhoeven,Tanguy Magne,Olga Sorkine-Hornung |
発行日 | 2024-02-27 15:59:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google