KITchen: A Real-World Benchmark and Dataset for 6D Object Pose Estimation in Kitchen Environments

要約

ロボットによる把握のための 6D 物体の姿勢推定手法は最近進歩しているにもかかわらず、既存のデータセットに対するこれらの手法の能力と、特にロボットが単眼の自己中心的な領域のみに依存している場合、現実世界のモバイル操作タスクにおける有効性との間には、かなりのパフォーマンスギャップが残っています。
ビュー (FOV)。
既存の実世界のデータセットは主に、ロボット アームが固定位置に配置され、物体が固定された外部カメラの FOV 内に集中される、テーブルトップの把握シナリオに焦点を当てています。
このようなデータセットのパフォーマンスの評価は、高い棚、シンク、食器洗い機、オーブン、冷蔵庫、電子レンジから物体を取り出すなど、キッチン環境内の日常的なモバイル操作タスクで遭遇する課題を正確に反映していない可能性があります。
このギャップに対処するために、キッチン環境内のさまざまな位置にあるオブジェクトの 6D 姿勢を推定するために特別に設計された新しいベンチマークである Kitchen を紹介します。
この目的のために、私たちは、自己中心的な視点を持つ 1 台の人型ロボットを利用して、2 つの異なるキッチンで撮影された 111 個のキッチン オブジェクトの約 205,000 個の実世界 RGBD 画像で構成される包括的なデータセットを記録しました。
その後、このようなデータセットのラベル付けプロセスを合理化するために、半自動のアノテーション パイプラインを開発しました。その結果、人的労力を最小限に抑えて 2D オブジェクト ラベル、2D オブジェクト セグメンテーション マスク、および 6D オブジェクト ポーズを生成できるようになりました。
ベンチマーク、データセット、およびアノテーション パイプラインは、https://kitchen-dataset.github.io/KITchen で入手できます。

要約(オリジナル)

Despite the recent progress on 6D object pose estimation methods for robotic grasping, a substantial performance gap persists between the capabilities of these methods on existing datasets and their efficacy in real-world mobile manipulation tasks, particularly when robots rely solely on their monocular egocentric field of view (FOV). Existing real-world datasets primarily focus on table-top grasping scenarios, where a robotic arm is placed in a fixed position and the objects are centralized within the FOV of fixed external camera(s). Assessing performance on such datasets may not accurately reflect the challenges encountered in everyday mobile manipulation tasks within kitchen environments such as retrieving objects from higher shelves, sinks, dishwashers, ovens, refrigerators, or microwaves. To address this gap, we present Kitchen, a novel benchmark designed specifically for estimating the 6D poses of objects located in diverse positions within kitchen settings. For this purpose, we recorded a comprehensive dataset comprising around 205k real-world RGBD images for 111 kitchen objects captured in two distinct kitchens, utilizing one humanoid robot with its egocentric perspectives. Subsequently, we developed a semi-automated annotation pipeline, to streamline the labeling process of such datasets, resulting in the generation of 2D object labels, 2D object segmentation masks, and 6D object poses with minimized human effort. The benchmark, the dataset, and the annotation pipeline are available at https://kitchen-dataset.github.io/KITchen.

arxiv情報

著者 Abdelrahman Younes,Tamim Asfour
発行日 2024-03-24 17:00:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク