要約
タイトル: PMatch: 対応付けられたマスク画像モデリングを用いた密なジオメトリックマッチング
要約:
・密なジオメトリックマッチングとは、同じ3D構造に対応するソース画像とサポート画像の間の密なピクセルごとの対応関係を決定することである。
・従来の手法では、トランスフォーマーブロックのエンコーダーを使用して2つのフレームの特徴を相関させることが行われてきた。
・しかし、既存の単眼のプリトレーニングタスク、例えば画像分類やマスク画像モデリング(MIM)は、クロスフレームモジュールをプリトレーニングすることができないため、より最適なパフォーマンスを発揮することができなかった。
・この問題を解決するため、私たちはシングル・マスク画像の再構築からペア・マスク画像の再構築にMIMを再定式化し、トランスフォーマーモジュールのプリトレーニングを可能にした。
・さらに、改善されたアップサンプリング結果を得るために、デコーダをプリトレーニングに組み込んだ。
・さらに、テクスチャレス領域に頑健性を持たせるため、クロスフレームグローバルマッチングモジュール(CFGM)を提案している。最もテクスチャレスな領域は平面であるため、ホモグラフィー損失を提案し、その学習をさらに正則化している。
・これらを組み合わせることで、私たちはジオメトリックマッチングでState-of-The-Art(SoTA)のパフォーマンスを実現している。
・コードおよびモデルは、https://github.com/ShngJZ/PMatchで利用可能である。
要約(オリジナル)
Dense geometric matching determines the dense pixel-wise correspondence between a source and support image corresponding to the same 3D structure. Prior works employ an encoder of transformer blocks to correlate the two-frame features. However, existing monocular pretraining tasks, e.g., image classification, and masked image modeling (MIM), can not pretrain the cross-frame module, yielding less optimal performance. To resolve this, we reformulate the MIM from reconstructing a single masked image to reconstructing a pair of masked images, enabling the pretraining of transformer module. Additionally, we incorporate a decoder into pretraining for improved upsampling results. Further, to be robust to the textureless area, we propose a novel cross-frame global matching module (CFGM). Since the most textureless area is planar surfaces, we propose a homography loss to further regularize its learning. Combined together, we achieve the State-of-The-Art (SoTA) performance on geometric matching. Codes and models are available at https://github.com/ShngJZ/PMatch.
arxiv情報
著者 | Shengjie Zhu,Xiaoming Liu |
発行日 | 2023-03-30 12:53:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI