Data Scaling Laws in Imitation Learning for Robotic Manipulation

要約

データスケーリングは、自然言語処理やコンピュータービジョンなどの分野に革命をもたらし、モデルに顕著な一般化能力を提供しています。
このホワイトペーパーでは、特にロボット操作に類似のデータスケーリング法が存在するかどうか、および適切なデータスケーリングが、あらゆる環境の同じカテゴリ内のオブジェクトのゼロショットを展開できるシングルタスクロボットポリシーを生成できるかどうかを調査します。
この目的のために、模倣学習におけるデータスケーリングに関する包括的な経験的研究を実施します。
多数の環境とオブジェクトにわたってデータを収集することにより、トレーニング環境、オブジェクト、デモの数とともにポリシーの一般化パフォーマンスがどのように変化するかを研究します。
調査全体を通して、40,000を超えるデモンストレーションを収集し、厳密な評価プロトコルの下で15,000を超える実世界のロボットロールアウトを実行します。
私たちの調査結果は、いくつかの興味深い結果を明らかにしています。ポリシーの一般化パフォーマンスは、環境やオブジェクトの数との大まかな権力の関係に従います。
環境とオブジェクトの多様性は、デモの絶対数よりもはるかに重要です。
環境またはオブジェクトごとのデモの数が特定のしきい値に達すると、追加のデモンストレーションは最小限の効果があります。
これらの洞察に基づいて、効率的なデータ収集戦略を提案します。
1つの午後、4つのデータコレクターが働いているため、目に見えないオブジェクトを持つ新しい環境で約90%の成功率を達成できる2つのタスクのポリシーを可能にするのに十分なデータを収集します。

要約(オリジナル)

Data scaling has revolutionized fields like natural language processing and computer vision, providing models with remarkable generalization capabilities. In this paper, we investigate whether similar data scaling laws exist in robotics, particularly in robotic manipulation, and whether appropriate data scaling can yield single-task robot policies that can be deployed zero-shot for any object within the same category in any environment. To this end, we conduct a comprehensive empirical study on data scaling in imitation learning. By collecting data across numerous environments and objects, we study how a policy’s generalization performance changes with the number of training environments, objects, and demonstrations. Throughout our research, we collect over 40,000 demonstrations and execute more than 15,000 real-world robot rollouts under a rigorous evaluation protocol. Our findings reveal several intriguing results: the generalization performance of the policy follows a roughly power-law relationship with the number of environments and objects. The diversity of environments and objects is far more important than the absolute number of demonstrations; once the number of demonstrations per environment or object reaches a certain threshold, additional demonstrations have minimal effect. Based on these insights, we propose an efficient data collection strategy. With four data collectors working for one afternoon, we collect sufficient data to enable the policies for two tasks to achieve approximately 90% success rates in novel environments with unseen objects.

arxiv情報

著者 Fanqi Lin,Yingdong Hu,Pingyue Sheng,Chuan Wen,Jiacheng You,Yang Gao
発行日 2025-02-12 13:40:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク