PACE: A Large-Scale Dataset with Pose Annotations in Cluttered Environments

要約

姿勢推定は、コンピューター ビジョンとロボット工学において重要なタスクであり、画像やビデオ内のオブジェクトの追跡と操作を可能にします。
ポーズ推定用のデータセットはいくつか存在しますが、特にオクルージョンのある乱雑なシーンに焦点を当てた大規模なデータセットは不足しています。
乱雑なシナリオにおける姿勢推定手法の開発と評価を進めるために設計された大規模ベンチマークである PACE (Pose Annotations in Cluttered Environments) を紹介します。
PACE は、300 のビデオにわたる 257,673 の注釈を含む 54,945 のフレームで構成されており、44 のカテゴリから 576 のオブジェクトをカバーし、乱雑なシーンの中に硬質で明確なアイテムが混在しているのが特徴です。
実世界のデータに効率的に注釈を付けるために、私たちは校正された 3 台のカメラのセットアップを利用した革新的な注釈システムを開発しました。
私たちは、姿勢推定とオブジェクト姿勢追跡という 2 つのトラックに沿って PACE の最先端のアルゴリズムをテストし、ベンチマークの課題と研究の機会を明らかにします。
コードとデータは https://github.com/qq456cvb/PACE で入手できます。

要約(オリジナル)

Pose estimation is a crucial task in computer vision and robotics, enabling the tracking and manipulation of objects in images or videos. While several datasets exist for pose estimation, there is a lack of large-scale datasets specifically focusing on cluttered scenes with occlusions. We introduce PACE (Pose Annotations in Cluttered Environments), a large-scale benchmark designed to advance the development and evaluation of pose estimation methods in cluttered scenarios. PACE consists of 54,945 frames with 257,673 annotations across 300 videos, covering 576 objects from 44 categories and featuring a mix of rigid and articulated items in cluttered scenes. To annotate the real-world data efficiently, we developed an innovative annotation system utilizing a calibrated 3-camera setup. We test state-of-the-art algorithms in PACE along two tracks: pose estimation, and object pose tracking, revealing the benchmark’s challenges and research opportunities. Our code and data is available on https://github.com/qq456cvb/PACE.

arxiv情報

著者 Yang You,Kai Xiong,Zhening Yang,Zhengxiang Huang,Junwei Zhou,Ruoxi Shi,Zhou Fang,Adam W. Harley,Leonidas Guibas,Cewu Lu
発行日 2024-04-01 00:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク