RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline Model and DoF-based Curriculum Learning

要約

広角レンズは、VR技術への応用が期待されているが、撮影画像に大きな放射状の歪みが生じる。そのため、従来は、広角レンズで撮影した画像の歪みを補正することで、現実の風景を再現することが行われてきました。しかし、このような補正を行うと、画像境界が歪み、関連する幾何学的分布が変化し、現在の視覚認識モデルを誤解させる可能性がある。本研究では、新しい学習モデルであるRectangling Rectification Network (RecRecNet)を提供することで、内容と境界の両方についてウィンウィンの表現を構築することを探求する。特に、画像を整流するための非線形・非剛体変換を定式化するために、薄板スプライン(TPS)モジュールを提案する。本モデルは、画像上の制御点を学習することで、ソース構造をターゲット領域に柔軟に変形することができ、教師なし変形をエンドツーエンドで達成することが可能である。構造近似の複雑さを緩和するために、我々はDoF (Degree of Freedom)に基づくカリキュラム学習により、RecRecNetに漸進的な変形規則を学習させるようにした。各カリキュラムの段階、すなわち、相似変換(4自由度)からホモグラフィ変換(8自由度)へと自由度を増やすことにより、ネットワークはより詳細な変形を調べることができ、最後の矩形化タスクにおいて高速に収束することが可能である。実験では、定量的・定性的評価において、比較した手法に対して我々のソリューションが優れていることが示された。コードとデータセットは公開される予定である。

要約(オリジナル)

The wide-angle lens shows appealing applications in VR technologies, but it introduces severe radial distortion into its captured image. To recover the realistic scene, previous works devote to rectifying the content of the wide-angle image. However, such a rectification solution inevitably distorts the image boundary, which potentially changes related geometric distributions and misleads the current vision perception models. In this work, we explore constructing a win-win representation on both content and boundary by contributing a new learning model, i.e., Rectangling Rectification Network (RecRecNet). In particular, we propose a thin-plate spline (TPS) module to formulate the non-linear and non-rigid transformation for rectangling images. By learning the control points on the rectified image, our model can flexibly warp the source structure to the target domain and achieves an end-to-end unsupervised deformation. To relieve the complexity of structure approximation, we then inspire our RecRecNet to learn the gradual deformation rules with a DoF (Degree of Freedom)-based curriculum learning. By increasing the DoF in each curriculum stage, namely, from similarity transformation (4-DoF) to homography transformation (8-DoF), the network is capable of investigating more detailed deformations, offering fast convergence on the final rectangling task. Experiments show the superiority of our solution over the compared methods on both quantitative and qualitative evaluations. The code and dataset will be made available.

arxiv情報

著者 Kang Liao,Lang Nie,Chunyu Lin,Zishuo Zheng,Yao Zhao
発行日 2023-01-04 15:12:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク