要約
我々は、カテゴリレベルの物体ポーズ推定とアフォーダンス予測のためのHANDALデータセットを発表する。これまでのデータセットとは異なり、我々のデータセットは、ペンチ、調理器具、ドライバーなど、ロボットマニピュレータが機能的に把持するのに適切なサイズと形状を持つ、ロボット工学的に操作可能な物体に焦点を当てている。我々のアノテーション・プロセスは合理化されており、市販のカメラ1台と半自動処理のみで、クラウドソーシングを使わずに高品質の3Dアノテーションを作成することができる。データセットは、17のカテゴリに分類された212の実世界のオブジェクトの220kビデオから308kアノテーションされた画像フレームで構成されている。我々は、ロボットマニピュレータが単純なプッシュや無差別把持を超えて環境と相互作用する必要がある実用的なシナリオの研究を促進するために、ハードウェアとキッチンツールのオブジェクトに焦点を当てている。我々は、6DoFカテゴリレベルのポーズ+スケール推定と関連タスクに対する我々のデータセットの有用性を概説する。また、全てのオブジェクトの3D再構成メッシュを提供し、このようなデータセットの収集を民主化するために対処すべきボトルネックのいくつかを概説する。
要約(オリジナル)
We present the HANDAL dataset for category-level object pose estimation and affordance prediction. Unlike previous datasets, ours is focused on robotics-ready manipulable objects that are of the proper size and shape for functional grasping by robot manipulators, such as pliers, utensils, and screwdrivers. Our annotation process is streamlined, requiring only a single off-the-shelf camera and semi-automated processing, allowing us to produce high-quality 3D annotations without crowd-sourcing. The dataset consists of 308k annotated image frames from 2.2k videos of 212 real-world objects in 17 categories. We focus on hardware and kitchen tool objects to facilitate research in practical scenarios in which a robot manipulator needs to interact with the environment beyond simple pushing or indiscriminate grasping. We outline the usefulness of our dataset for 6-DoF category-level pose+scale estimation and related tasks. We also provide 3D reconstructed meshes of all objects, and we outline some of the bottlenecks to be addressed for democratizing the collection of datasets like this one.
arxiv情報
著者 | Andrew Guo,Bowen Wen,Jianhe Yuan,Jonathan Tremblay,Stephen Tyree,Jeffrey Smith,Stan Birchfield |
発行日 | 2023-08-02 23:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |