Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking

要約

6D オブジェクトの姿勢推定は、大規模なデータセットが大幅に不足しているため、コンピューター ビジョンにおいて重要かつ困難なタスクです。
この不足により、モデルのパフォーマンスの包括的な評価が妨げられ、研究の進歩が制限されます。
さらに、利用可能なインスタンスまたはカテゴリの数が制限されているため、そのアプリケーションは制限されます。
これらの問題に対処するために、この文書では、オブジェクト カテゴリの多様性、大規模さ、およびオブジェクト マテリアルの多様性を特徴とする実質的なデータセットである Omni6DPose を紹介します。
Omni6DPose は 3 つの主要なコンポーネントに分かれています。ROPE (Real 6D Object Pose Estimation Dataset) には、149 カテゴリの 581 インスタンスにわたる 150 万を超えるアノテーションが付けられた 332,000 個の画像が含まれています。
SOPE (Simulated 6D Object Pose Estimation Dataset) は、深度シミュレーションを備えた複合現実設定で作成された 475,000 枚の画像で構成され、同じ 149 カテゴリの 4,162 インスタンスにわたって 500 万を超えるアノテーションが付けられています。
ROPE と SOPE の両方で使用される、手動で位置合わせされた実際のスキャンされたオブジェクト。
Omni6DPose は、実質的なバリエーションと曖昧さがあるため、本質的に困難を伴います。
この課題に対処するために、SOTA カテゴリ レベルの姿勢推定フレームワークの拡張バージョンである GenPose++ を導入します。これには、セマンティックを意識した特徴抽出とクラスタリング ベースの集約という 2 つの重要な改善が組み込まれています。
さらに、6D オブジェクトの姿勢推定と姿勢追跡の領域で、この大規模なデータセットに対する以前の手法のパフォーマンスを評価するための包括的なベンチマーク分析を提供します。

要約(オリジナル)

6D Object Pose Estimation is a crucial yet challenging task in computer vision, suffering from a significant lack of large-scale datasets. This scarcity impedes comprehensive evaluation of model performance, limiting research advancements. Furthermore, the restricted number of available instances or categories curtails its applications. To address these issues, this paper introduces Omni6DPose, a substantial dataset characterized by its diversity in object categories, large scale, and variety in object materials. Omni6DPose is divided into three main components: ROPE (Real 6D Object Pose Estimation Dataset), which includes 332K images annotated with over 1.5M annotations across 581 instances in 149 categories; SOPE(Simulated 6D Object Pose Estimation Dataset), consisting of 475K images created in a mixed reality setting with depth simulation, annotated with over 5M annotations across 4162 instances in the same 149 categories; and the manually aligned real scanned objects used in both ROPE and SOPE. Omni6DPose is inherently challenging due to the substantial variations and ambiguities. To address this challenge, we introduce GenPose++, an enhanced version of the SOTA category-level pose estimation framework, incorporating two pivotal improvements: Semantic-aware feature extraction and Clustering-based aggregation. Moreover, we provide a comprehensive benchmarking analysis to evaluate the performance of previous methods on this large-scale dataset in the realms of 6D object pose estimation and pose tracking.

arxiv情報

著者 Jiyao Zhang,Weiyao Huang,Bo Peng,Mingdong Wu,Fei Hu,Zijian Chen,Bo Zhao,Hao Dong
発行日 2024-06-06 17:57:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク