ASIC: Aligning Sparse in-the-wild Image Collections

要約

オブジェクト カテゴリのまばらな野生の画像コレクションの共同配置の方法を提示します。
ほとんどの先行研究は、グラウンド トゥルース キーポイント アノテーションまたは単一のオブジェクト カテゴリの画像の大規模なデータセットのいずれかを想定しています。
ただし、上記の仮定はどちらも、世界に存在するオブジェクトのロングテールには当てはまりません。
コレクション全体で一貫した密な対応を取得するために、特定のオブジェクト/オブジェクト カテゴリの画像の疎なコレクションを直接最適化する自己教師あり手法を提示します。
事前にトレーニングされたビジョン トランスフォーマー (ViT) モデルの深い特徴から得られたペアワイズ最近傍を、ノイジーでスパースなキーポイント マッチとして使用し、画像コレクションを学習した正規グリッドに共同でマッピングするニューラル ネットワークを最適化することで、それらを密で正確なマッチにします。
CUB および SPair-71k ベンチマークでの実験は、既存の自己教師あり方法と比較した場合、この方法が画像コレクション全体でグローバルに一貫した高品質の対応を生成できることを示しています。
コードやその他の資料は、\url{https://kampta.github.io/asic} で入手できるようになります。

要約(オリジナル)

We present a method for joint alignment of sparse in-the-wild image collections of an object category. Most prior works assume either ground-truth keypoint annotations or a large dataset of images of a single object category. However, neither of the above assumptions hold true for the long-tail of the objects present in the world. We present a self-supervised technique that directly optimizes on a sparse collection of images of a particular object/object category to obtain consistent dense correspondences across the collection. We use pairwise nearest neighbors obtained from deep features of a pre-trained vision transformer (ViT) model as noisy and sparse keypoint matches and make them dense and accurate matches by optimizing a neural network that jointly maps the image collection into a learned canonical grid. Experiments on CUB and SPair-71k benchmarks demonstrate that our method can produce globally consistent and higher quality correspondences across the image collection when compared to existing self-supervised methods. Code and other material will be made available at \url{https://kampta.github.io/asic}.

arxiv情報

著者 Kamal Gupta,Varun Jampani,Carlos Esteves,Abhinav Shrivastava,Ameesh Makadia,Noah Snavely,Abhishek Kar
発行日 2023-03-28 17:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク