要約
カテゴリ非依存ポーズ推定 (CAPE) は、1 つまたは少数の注釈付きサポート イメージを使用して、単一のモデルで多様なオブジェクト カテゴリ全体のキーポイントを位置特定します。
最近の研究では、ポーズ グラフの使用 (つまり、キーポイントを孤立点ではなくグラフ内のノードとして扱う) がオクルージョンの処理と対称性の破壊に役立つことが示されています。
ただし、これらの方法は等しい重みのエッジを持つ静的なポーズ グラフを前提としているため、次善の結果が得られます。
ローカリゼーションを最適化するグラフのエッジの重みを予測することでこれらの制限を克服する新しいフレームワークである EdgeCape を紹介します。
構造事前分布をさらに活用するために、マルコフ構造バイアスを統合することを提案します。これは、ノード間のホップ数に基づいてノード間のセルフアテンション相互作用を調整します。
これにより、グローバルな空間依存関係を捉えるモデルの能力が向上することを示します。
100 のカテゴリと 20,000 を超える画像を含む MP-100 ベンチマークで評価した場合、EdgeCape は 1 ショット設定で最先端の結果を達成し、5 ショット設定では同様のサイズの手法の中でトップとなり、キーポイントを大幅に改善しました。
位置特定の精度。
私たちのコードは公開されています。
要約(オリジナル)
Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse object categories with a single model, using one or a few annotated support images. Recent works have shown that using a pose graph (i.e., treating keypoints as nodes in a graph rather than isolated points) helps handle occlusions and break symmetry. However, these methods assume a static pose graph with equal-weight edges, leading to suboptimal results. We introduce EdgeCape, a novel framework that overcomes these limitations by predicting the graph’s edge weights which optimizes localization. To further leverage structural priors, we propose integrating Markovian Structural Bias, which modulates the self-attention interaction between nodes based on the number of hops between them. We show that this improves the model’s ability to capture global spatial dependencies. Evaluated on the MP-100 benchmark, which includes 100 categories and over 20K images, EdgeCape achieves state-of-the-art results in the 1-shot setting and leads among similar-sized methods in the 5-shot setting, significantly improving keypoint localization accuracy. Our code is publicly available.
arxiv情報
著者 | Or Hirschorn,Shai Avidan |
発行日 | 2024-11-25 18:53:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google