Pose Anything: A Graph-Based Approach for Category-Agnostic Pose Estimation

要約

従来の 2D 姿勢推定モデルは、カテゴリ固有の設計によって制限されており、事前定義されたオブジェクト カテゴリにのみ適しています。
この制限は、関連するトレーニング データが不足しているため、新しいオブジェクトを扱う場合に特に困難になります。
この制限に対処するために、カテゴリーに依存しない姿勢推定 (CAPE) が導入されました。
CAPE は、単一のモデルを使用して任意のオブジェクト カテゴリのキーポイントの位置特定を可能にし、注釈付きのキーポイントを含む最小限のサポート イメージを必要とすることを目的としています。
このアプローチにより、任意のキーポイント定義に基づいたオブジェクトの姿勢生成が可能になるだけでなく、関連コストも大幅に削減され、多用途で適応性のある姿勢推定アプリケーションへの道が開かれます。
新しく設計された Graph Transformer Decoder を通じて、キーポイント間の固有の幾何学的関係を活用する、CAPE への新しいアプローチを紹介します。
この重要な構造情報を取得して組み込むことにより、私たちの方法はキーポイントの位置特定の精度を向上させ、キーポイントを孤立したエンティティとして扱う従来の CAPE 技術から大きく脱却します。
私たちは、100 以上のカテゴリにわたる 20,000 枚を超える画像で構成される包括的なデータセットである MP-100 ベンチマークでアプローチを検証します。
私たちの方法は、従来の最先端技術を大幅に上回り、1 ショット設定および 5 ショット設定でそれぞれ 2.16% および 1.82% という顕著な改善を達成しました。
さらに、私たちの方法のエンドツーエンドのトレーニングは、以前の CAPE アプローチと比較してスケーラビリティと効率の両方を実証しています。

要約(オリジナル)

Traditional 2D pose estimation models are limited by their category-specific design, making them suitable only for predefined object categories. This restriction becomes particularly challenging when dealing with novel objects due to the lack of relevant training data. To address this limitation, category-agnostic pose estimation (CAPE) was introduced. CAPE aims to enable keypoint localization for arbitrary object categories using a single model, requiring minimal support images with annotated keypoints. This approach not only enables object pose generation based on arbitrary keypoint definitions but also significantly reduces the associated costs, paving the way for versatile and adaptable pose estimation applications. We present a novel approach to CAPE that leverages the inherent geometrical relations between keypoints through a newly designed Graph Transformer Decoder. By capturing and incorporating this crucial structural information, our method enhances the accuracy of keypoint localization, marking a significant departure from conventional CAPE techniques that treat keypoints as isolated entities. We validate our approach on the MP-100 benchmark, a comprehensive dataset comprising over 20,000 images spanning more than 100 categories. Our method outperforms the prior state-of-the-art by substantial margins, achieving remarkable improvements of 2.16% and 1.82% under 1-shot and 5-shot settings, respectively. Furthermore, our method’s end-to-end training demonstrates both scalability and efficiency compared to previous CAPE approaches.

arxiv情報

著者 Or Hirschorn,Shai Avidan
発行日 2023-11-29 18:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク