要約
我々は、クロスモーダルな時空間対応関係を見つける方法を提案する。RGB画像と深度マップのような、異なる視覚モダリティからの2つの画像が与えられたとき、我々のモデルは、どの画素の組がシーン内の同じ物理的点に対応するかを識別する。この問題を解決するために、我々は対比的ランダムウォークの枠組みを拡張し、クロスモーダルとイントラモーダルの両方のマッチングのために、サイクル整合的な特徴表現を同時に学習する。結果として得られるモデルは単純であり、明示的な写真一貫性の仮定を持たない。空間的に整列されたマルチモーダル画像ペアを必要とせず、ラベル付けされていないデータを用いて完全に学習することができる。本手法を幾何学的対応と意味的対応の両タスクで評価する。幾何学的マッチングについては、RGB-深度マッチングやRGB-熱マッチング(およびその逆)のような困難なタスクを考慮し、意味的マッチングについては、フォトスケッチとクロススタイル画像アライメントで評価する。我々の手法は全てのベンチマークにおいて高い性能を達成している。
要約(オリジナル)
We present a method for finding cross-modal space-time correspondences. Given two images from different visual modalities, such as an RGB image and a depth map, our model identifies which pairs of pixels correspond to the same physical points in the scene. To solve this problem, we extend the contrastive random walk framework to simultaneously learn cycle-consistent feature representations for both cross-modal and intra-modal matching. The resulting model is simple and has no explicit photo-consistency assumptions. It can be trained entirely using unlabeled data, without the need for any spatially aligned multimodal image pairs. We evaluate our method on both geometric and semantic correspondence tasks. For geometric matching, we consider challenging tasks such as RGB-to-depth and RGB-to-thermal matching (and vice versa); for semantic matching, we evaluate on photo-sketch and cross-style image alignment. Our method achieves strong performance across all benchmarks.
arxiv情報
著者 | Ayush Shrivastava,Andrew Owens |
発行日 | 2025-06-03 17:59:45+00:00 |
arxivサイト | arxiv_id(pdf) |