SHIC: Shape-Image Correspondences with no Keypoint Supervision


正準表面マッピングは、オブジェクトの各ピクセルを 3D テンプレート内の対応する点に割り当てることにより、キーポイント検出を一般化します。
人間の分析用に DensePose によって普及したこの概念は、その後、著者らにより多くのカテゴリに適用しようと試みられましたが、手動による監視コストが高いため、成功は限られていました。
この研究では、SHIC を紹介します。これは、ほとんどのカテゴリで教師付き手法よりも優れた結果を達成する、手動による教師なしで正規マップを学習する手法です。
私たちのアイデアは、DINO や Stable Diffusion など、オープンエンドであり、したがって自然なカテゴリに対して優れた事前分布を備えている基礎的なコンピューター ビジョン モデルを活用することです。
SHIC は、画像とテンプレートの対応を推定する問題を、基礎モデルの特徴を使用して画像と画像の対応を予測する問題に縮小します。
リダクションは、オブジェクトの画像をテンプレートの非フォトリアリスティック レンダリングと照合することによって機能し、このタスクの手動アノテーションを収集するプロセスをエミュレートします。
また、画像ジェネレーターがテンプレート ビューのリアリズムをさらに向上させ、モデルに追加の監視ソースを提供できることも示します。


Canonical surface mapping generalizes keypoint detection by assigning each pixel of an object to a corresponding point in a 3D template. Popularised by DensePose for the analysis of humans, authors have since attempted to apply the concept to more categories, but with limited success due to the high cost of manual supervision. In this work, we introduce SHIC, a method to learn canonical maps without manual supervision which achieves better results than supervised methods for most categories. Our idea is to leverage foundation computer vision models such as DINO and Stable Diffusion that are open-ended and thus possess excellent priors over natural categories. SHIC reduces the problem of estimating image-to-template correspondences to predicting image-to-image correspondences using features from the foundation models. The reduction works by matching images of the object to non-photorealistic renders of the template, which emulates the process of collecting manual annotations for this task. These correspondences are then used to supervise high-quality canonical maps for any object of interest. We also show that image generators can further improve the realism of the template views, which provide an additional source of supervision for the model.


著者 Aleksandar Shtedritski,Christian Rupprecht,Andrea Vedaldi
発行日 2024-07-26 17:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク