RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents

要約

分布外のタスクを解く際の汎化性を達成することは、ロボット操作学習の究極の目標の一つである。近年の視覚言語モデル(VLM)の進歩により、VLMに基づくタスクプランナーは、複合化されたタスクを、既に習得されたプリミティブレベルのスキルを順次実行する計画として分解することで、新規タスクの解決の難しさを軽減できることが示されている。また、このような複合的汎化能力を、複合的汎化エージェント(CGA)の形で適応させることは、ロボット操作にとっても有望である。しかし、原始スキルの信頼性の高い設計や、十分な量の原始レベルのデータアノテーションが不足している。そこで、我々はRH20T-Pを提案する。RH20T-Pは原始レベルのロボット操作データセットであり、実世界のシナリオにおける67の多様な操作タスクをカバーする約3万8千のビデオクリップを含む。各クリップは、ロボット操作で一般的なプリミティブスキルの綿密に設計されたセットに従って手動でアノテーションされている。さらに、RH20T-P上で、RA-Pと呼ばれる模範的なベースラインを実装し、未知のタスクの解決において良好な性能を示すことで、提案するデータセットがロボット操作エージェントにComposableな汎化能力を提供できることを検証する。

要約(オリジナル)

Achieving generalizability in solving out-of-distribution tasks is one of the ultimate goals of learning robotic manipulation. Recent progress of Vision-Language Models (VLMs) has shown that VLM-based task planners can alleviate the difficulty of solving novel tasks, by decomposing the compounded tasks as a plan of sequentially executing primitive-level skills that have been already mastered. It is also promising for robotic manipulation to adapt such composable generalization ability, in the form of composable generalization agents (CGAs). However, the community lacks of reliable design of primitive skills and a sufficient amount of primitive-level data annotations. Therefore, we propose RH20T-P, a primitive-level robotic manipulation dataset, which contains about 38k video clips covering 67 diverse manipulation tasks in real-world scenarios. Each clip is manually annotated according to a set of meticulously designed primitive skills that are common in robotic manipulation. Furthermore, we standardize a plan-execute CGA paradigm and implement an exemplar baseline called RA-P on our RH20T-P, whose positive performance on solving unseen tasks validates that the proposed dataset can offer composable generalization ability to robotic manipulation agents.

arxiv情報

著者 Zeren Chen,Zhelun Shi,Xiaoya Lu,Lehan He,Sucheng Qian,Zhenfei Yin,Wanli Ouyang,Jing Shao,Yu Qiao,Cewu Lu,Lu Sheng
発行日 2025-02-01 11:17:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク