要約
ロボットに家庭内での日常業務を完了させるよう指示することは、ロボット工学にとって長年の課題でした。
言語条件付き模倣学習とオフライン強化学習の最近の進歩は、幅広いタスクにわたって目覚ましいパフォーマンスを示していますが、それらは通常、期間の短いタスクに限定されており、家庭用ロボットが完了することが期待されるタスクを反映していません。
既存のアーキテクチャにはこれらの望ましい動作を学習する可能性がありますが、実際のロボット システムに必要な長期にわたる複数ステップのデータセットが不足しているため、大きな課題が生じています。
この目的を達成するために、200 のエピソードで構成される Long-Horizon Manipulation (LHManip) データセットを提示し、実際のロボットの遠隔操作による 20 の異なる操作タスクを示します。
これらのタスクには、非常に乱雑な環境で物体をつかむ、押す、積み重ねる、投げるなど、複数のサブタスクが伴います。
各タスクは、点群または NeRF 再構成のための自然言語命令とマルチカメラ視点と組み合わせられます。
合計で、データセットは 176,278 の観察とアクションのペアで構成され、Open X-Embodiment データセットの一部を形成します。
完全な LHManip データセットは、https://github.com/fedeceola/LHManip で公開されています。
要約(オリジナル)
Instructing a robot to complete an everyday task within our homes has been a long-standing challenge for robotics. While recent progress in language-conditioned imitation learning and offline reinforcement learning has demonstrated impressive performance across a wide range of tasks, they are typically limited to short-horizon tasks — not reflective of those a home robot would be expected to complete. While existing architectures have the potential to learn these desired behaviours, the lack of the necessary long-horizon, multi-step datasets for real robotic systems poses a significant challenge. To this end, we present the Long-Horizon Manipulation (LHManip) dataset comprising 200 episodes, demonstrating 20 different manipulation tasks via real robot teleoperation. The tasks entail multiple sub-tasks, including grasping, pushing, stacking and throwing objects in highly cluttered environments. Each task is paired with a natural language instruction and multi-camera viewpoints for point-cloud or NeRF reconstruction. In total, the dataset comprises 176,278 observation-action pairs which form part of the Open X-Embodiment dataset. The full LHManip dataset is made publicly available at https://github.com/fedeceola/LHManip.
arxiv情報
著者 | Federico Ceola,Lorenzo Natale,Niko Sünderhauf,Krishan Rana |
発行日 | 2024-07-01 22:10:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google