Scaling Robot Policy Learning via Zero-Shot Labeling with Foundation Models

要約

人間の言語をその認識や行動に関連付けることができるロボットの開発における中心的な課題は、多様なロボット データセットにおける自然言語のアノテーションが不足していることです。
さらに、自然言語の命令に従うロボット ポリシーは通常、テンプレート化された言語または人間がラベルを付けた高価な命令のいずれかでトレーニングされるため、スケーラビリティが妨げられます。
この目的を達成するために、NILS: スケーラビリティのための自然言語命令ラベリングを導入します。
NILS は、人間の介入なしに、ゼロショット方式で大規模かつ未管理の長期ロボット データに自動的にラベルを付けます。
NILS は、シーン内のオブジェクトを検出し、オブジェクト中心の変化を検出し、ラベルのないインタラクション データの大規模なデータセットからタスクをセグメント化し、最終的には動作データセットにラベルを付けるために、事前トレーニングされた視覚言語基盤モデルを組み合わせます。
BridgeV2、Fractal、およびキッチンプレイデータセットの評価では、NILS がラベルなしおよび非構造化データセットの多様なロボットのデモンストレーションに自律的にアノテーションを付けられる一方で、データ品質の低さや多様性など、クラウドソーシングによる人間によるアノテーションのいくつかの欠点を軽減できることが示されています。
私たちは NILS を使用して、430 時間以上のロボット データから取得した 115,000 を超える軌跡にラベルを付けます。
自動ラベル付けコードと生成されたアノテーションは、Web サイト http://robottasklabeling.github.io でオープンソース化されています。

要約(オリジナル)

A central challenge towards developing robots that can relate human language to their perception and actions is the scarcity of natural language annotations in diverse robot datasets. Moreover, robot policies that follow natural language instructions are typically trained on either templated language or expensive human-labeled instructions, hindering their scalability. To this end, we introduce NILS: Natural language Instruction Labeling for Scalability. NILS automatically labels uncurated, long-horizon robot data at scale in a zero-shot manner without any human intervention. NILS combines pretrained vision-language foundation models in order to detect objects in a scene, detect object-centric changes, segment tasks from large datasets of unlabelled interaction data and ultimately label behavior datasets. Evaluations on BridgeV2, Fractal, and a kitchen play dataset show that NILS can autonomously annotate diverse robot demonstrations of unlabeled and unstructured datasets while alleviating several shortcomings of crowdsourced human annotations, such as low data quality and diversity. We use NILS to label over 115k trajectories obtained from over 430 hours of robot data. We open-source our auto-labeling code and generated annotations on our website: http://robottasklabeling.github.io.

arxiv情報

著者 Nils Blank,Moritz Reuss,Marcel Rühle,Ömer Erdinç Yağmurlu,Fabian Wenzel,Oier Mees,Rudolf Lioutikov
発行日 2024-10-23 11:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク