Instance-Adaptive Keypoint Learning with Local-to-Global Geometric Aggregation for Category-Level Object Pose Estimation

要約

カテゴリレベルのオブジェクトのポーズ推定は、事前に定義されたカテゴリから以前に見えなかったインスタンスの6Dポーズとサイズを予測することを目的としており、多様なオブジェクトインスタンス全体で強力な一般化が必要です。
多くの以前の方法は、クラス内のバリエーションを軽減しようとしますが、それらはしばしば複雑な幾何学または標準的な形状からの重要な逸脱を示すインスタンスと格闘しています。
この課題に対処するために、ローカルからグローバルへの幾何学的集合体を使用したインスタンス適応キーポイント学習を可能にする新しいカテゴリレベルのオブジェクトポーズ推定フレームワークであるInkl-Poseを提案します。
具体的には、私たちのアプローチは、最初に、インスタンス適応性のあるキーポイントジェネレーターを介して、意味的に一貫した幾何学的な有益なキーポイントを予測し、次に次のことを改良します。
MAMBAでの双方向モデリングを有効にするために、後方特徴シーケンスを構築しながら空間的一貫性を保持する特徴シーケンスフリッピング戦略を導入します。
さらに、キーポイント分布の均一なカバレッジと空間的多様性を実施するために、表面損失と分離損失を設計します。
生成されたキーポイントは、オブジェクトの6Dポーズとサイズを回帰するための標準空間に最終的にマッピングされます。
Camera25、Real275、およびHouseCAT6Dでの広範な実験は、INKLポーズが最先端のパフォーマンスを達成し、既存の方法を大幅に上回ることを示しています。

要約(オリジナル)

Category-level object pose estimation aims to predict the 6D pose and size of previously unseen instances from predefined categories, requiring strong generalization across diverse object instances. Although many previous methods attempt to mitigate intra-class variations, they often struggle with instances exhibiting complex geometries or significant deviations from canonical shapes. To address this challenge, we propose INKL-Pose, a novel category-level object pose estimation framework that enables INstance-adaptive Keypoint Learning with local-to-global geometric aggregation. Specifically, our approach first predicts semantically consistent and geometric informative keypoints through an Instance-Adaptive Keypoint Generator, then refines them with: (1) a Local Keypoint Feature Aggregator capturing fine-grained geometries, and (2) a Global Keypoint Feature Aggregator using bidirectional Mamba for structural consistency. To enable bidirectional modeling in Mamba, we introduce a Feature Sequence Flipping strategy that preserves spatial coherence while constructing backward feature sequences. Additionally, we design a surface loss and a separation loss to enforce uniform coverage and spatial diversity in keypoint distribution. The generated keypoints are finally mapped to a canonical space for regressing the object’s 6D pose and size. Extensive experiments on CAMERA25, REAL275, and HouseCat6D demonstrate that INKL-Pose achieves state-of-the-art performance and significantly outperforms existing methods.

arxiv情報

著者 Xiao Zhang,Lu Zou,Tao Lu,Yuan Yao,Zhangjin Huang,Guoping Wang
発行日 2025-04-21 14:37:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク