RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents

要約

ロボット学習の最終目標は、トレーニング配布内で目に見えるスキルと、新しい環境で目に見えないスキルの両方を実行できる、包括的で一般化可能なロボット システムを獲得することです。
言語モデルを高レベルのプランナーとして利用する最近の進歩により、タスクをプリミティブレベルのプランに分解することでタスクの複雑さが軽減され、新しいロボットタスクを構成可能な方法で一般化できることが実証されました。
有望な将来にもかかわらず、コミュニティは、特にプリミティブレベルの実世界のロボット データセットが不足しているため、コンポーザブル汎化エージェントに対してまだ十分な準備ができていません。
この論文では、44 の多様で複雑なロボット タスクをカバーする約 33,000 のビデオ クリップを含む、プリミティブ レベルのロボット データセット、つまり RH20T-P を提案します。
各クリップには、綿密に設計された一連の初歩的なスキルに従って手動で注釈が付けられ、将来の構成可能な一般化エージェントの開発が容易になります。
RH20T-P の有効性を検証するために、RA-P と呼ばれる、RH20T-P に基づいた潜在的でスケーラブルなエージェントも構築します。
タスクの分解と動作計画に特化した 2 つのプランナーを備えた RA-P は、構成可能な一般化を通じて新しい身体スキルに適応できます。
当社の Web サイトとビデオは、https://sites.google.com/view/rh20t-primitive/main でご覧いただけます。
データセットとコードは間もなく利用可能になります。

要約(オリジナル)

The ultimate goals of robotic learning is to acquire a comprehensive and generalizable robotic system capable of performing both seen skills within the training distribution and unseen skills in novel environments. Recent progress in utilizing language models as high-level planners has demonstrated that the complexity of tasks can be reduced through decomposing them into primitive-level plans, making it possible to generalize on novel robotic tasks in a composable manner. Despite the promising future, the community is not yet adequately prepared for composable generalization agents, particularly due to the lack of primitive-level real-world robotic datasets. In this paper, we propose a primitive-level robotic dataset, namely RH20T-P, which contains about 33000 video clips covering 44 diverse and complicated robotic tasks. Each clip is manually annotated according to a set of meticulously designed primitive skills, facilitating the future development of composable generalization agents. To validate the effectiveness of RH20T-P, we also construct a potential and scalable agent based on RH20T-P, called RA-P. Equipped with two planners specialized in task decomposition and motion planning, RA-P can adapt to novel physical skills through composable generalization. Our website and videos can be found at https://sites.google.com/view/rh20t-primitive/main. Dataset and code will be made available soon.

arxiv情報

著者 Zeren Chen,Zhelun Shi,Xiaoya Lu,Lehan He,Sucheng Qian,Hao Shu Fang,Zhenfei Yin,Wanli Ouyang,Jing Shao,Yu Qiao,Cewu Lu,Lu Sheng
発行日 2024-03-28 17:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク