要約
事前トレーニングされた大規模視覚モデルは意味論的な対応に大きな期待を示していますが、その特徴はインスタンスの形状や方向を把握するのに苦労することがよくあります。
この論文では、意味論的な対応のためにジオメトリを意識することの重要性を特定し、単純な後処理の下での現在の基礎モデルの機能の制限を明らかにします。
この情報を組み込むと、ゼロショット設定と教師あり設定の両方で、シンプルだが効果的なソリューションにより意味論的対応のパフォーマンスが大幅に向上できることを示します。
また、両方の事前トレーニング検証モデルに対して、既存の動物の姿勢推定データセットから構築された意味論的対応のための新しい挑戦的なベンチマークを構築します。
私たちの手法は、困難な SPair-71k データセットで 64.2 (ゼロショット) および 85.6 (教師あり) の PCK@0.10 スコアを達成し、絶対ゲインでそれぞれ 4.3p および 11.0p 最先端のパフォーマンスを上回りました。
私たちのコードとデータセットは一般公開されます。
要約(オリジナル)
While pre-trained large-scale vision models have shown significant promise for semantic correspondence, their features often struggle to grasp the geometry and orientation of instances. This paper identifies the importance of being geometry-aware for semantic correspondence and reveals a limitation of the features of current foundation models under simple post-processing. We show that incorporating this information can markedly enhance semantic correspondence performance with simple but effective solutions in both zero-shot and supervised settings. We also construct a new challenging benchmark for semantic correspondence built from an existing animal pose estimation dataset, for both pre-training validating models. Our method achieves a PCK@0.10 score of 64.2 (zero-shot) and 85.6 (supervised) on the challenging SPair-71k dataset, outperforming the state-of-the-art by 4.3p and 11.0p absolute gains, respectively. Our code and datasets will be publicly available.
arxiv情報
著者 | Junyi Zhang,Charles Herrmann,Junhwa Hur,Eric Chen,Varun Jampani,Deqing Sun,Ming-Hsuan Yang |
発行日 | 2023-11-28 18:45:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google