要約
ロボットによる把握のための 6D 物体の姿勢推定方法は最近進歩しているにもかかわらず、特にロボットが単眼の自己中心性にのみ依存する場合、既存のデータセットに対するこれらの方法の能力と、現実世界の把握およびモバイル操作タスクにおける有効性との間には、大きなパフォーマンスギャップが残っています。
視野 (FOV)。
既存の実世界のデータセットは主に、ロボット アームが固定位置に配置され、物体が固定外部カメラの FOV 内に集中される、テーブルトップの把握シナリオに焦点を当てています。
このようなデータセットのパフォーマンスの評価は、高い棚、シンク、食器洗い機、オーブン、冷蔵庫、電子レンジから物体を取り出すなど、キッチン環境内での日常的な掴みや移動操作のタスクで遭遇する課題を正確に反映していない可能性があります。
このギャップに対処するために、キッチン環境内のさまざまな位置にあるオブジェクトの 6D 姿勢を推定するために特別に設計された新しいベンチマークである KITchen を紹介します。
この目的のために、私たちは、自己中心的な視点を持つ人型ロボットを利用して、2 つの異なるキッチンで撮影された 111 個のキッチン オブジェクトの約 205,000 個の実世界 RGBD 画像で構成される包括的なデータセットを記録しました。
その後、このようなデータセットのラベル付けプロセスを合理化するために、半自動のアノテーション パイプラインを開発しました。その結果、人間の労力を最小限に抑えて 2D オブジェクト ラベル、2D オブジェクト セグメンテーション マスク、および 6D オブジェクト ポーズを生成できるようになりました。
ベンチマーク、データセット、およびアノテーション パイプラインは、https://kitchen-dataset.github.io/KITchen で公開されます。
要約(オリジナル)
Despite the recent progress on 6D object pose estimation methods for robotic grasping, a substantial performance gap persists between the capabilities of these methods on existing datasets and their efficacy in real-world grasping and mobile manipulation tasks, particularly when robots rely solely on their monocular egocentric field of view (FOV). Existing real-world datasets primarily focus on table-top grasping scenarios, where a robot arm is placed in a fixed position and the objects are centralized within the FOV of fixed external camera(s). Assessing performance on such datasets may not accurately reflect the challenges encountered in everyday grasping and mobile manipulation tasks within kitchen environments such as retrieving objects from higher shelves, sinks, dishwashers, ovens, refrigerators, or microwaves. To address this gap, we present KITchen, a novel benchmark designed specifically for estimating the 6D poses of objects located in diverse positions within kitchen settings. For this purpose, we recorded a comprehensive dataset comprising around 205k real-world RGBD images for 111 kitchen objects captured in two distinct kitchens, utilizing a humanoid robot with its egocentric perspectives. Subsequently, we developed a semi-automated annotation pipeline, to streamline the labeling process of such datasets, resulting in the generation of 2D object labels, 2D object segmentation masks, and 6D object poses with minimal human effort. The benchmark, the dataset, and the annotation pipeline will be publicly available at https://kitchen-dataset.github.io/KITchen.
arxiv情報
著者 | Abdelrahman Younes,Tamim Asfour |
発行日 | 2024-12-17 11:08:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google