Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels

要約

画像とオブジェクトインスタンス間で意味的に類似したポイント間の対応を見つけることは、コンピュータービジョンにおける永遠の課題の1つです。
大規模な訓練を受けた視力モデルが最近、セマンティックマッチングに効果的な事前に実証されていますが、対称オブジェクトまたは繰り返されるオブジェクトパーツの曖昧さに依然として苦しんでいます。
3Dが認識した擬似標識を介してセマンティック対応の推定を改善することを提案します。
具体的には、3Dが得たチェーンを介して得られた擬似ラベルを使用して、既製の機能を改良するためのアダプターをトレーニングし、緩和された周期的な一貫性を介して間違ったラベルをフィルタリングし、3D球状プロトタイプマッピング制約を介して間違ったラベルをフィルタリングします。
以前の作業と比較してデータセット固有の注釈の必要性を削減しながら、SPAIR-71Kの新しい最先端を4%以上の絶対ゲイン、および同様の監督要件を持つ方法に対して7%以上設定しました。
提案されたアプローチの一般性は、他のデータソースへのトレーニングの拡張を簡素化します。これは、実験で実証しています。

要約(オリジナル)

Finding correspondences between semantically similar points across images and object instances is one of the everlasting challenges in computer vision. While large pre-trained vision models have recently been demonstrated as effective priors for semantic matching, they still suffer from ambiguities for symmetric objects or repeated object parts. We propose to improve semantic correspondence estimation via 3D-aware pseudo-labeling. Specifically, we train an adapter to refine off-the-shelf features using pseudo-labels obtained via 3D-aware chaining, filtering wrong labels through relaxed cyclic consistency, and 3D spherical prototype mapping constraints. While reducing the need for dataset specific annotations compared to prior work, we set a new state-of-the-art on SPair-71k by over 4% absolute gain and by over 7% against methods with similar supervision requirements. The generality of our proposed approach simplifies extension of training to other data sources, which we demonstrate in our experiments.

arxiv情報

著者 Olaf Dünkel,Thomas Wimmer,Christian Theobalt,Christian Rupprecht,Adam Kortylewski
発行日 2025-06-05 17:54:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク