Data Scaling Laws in Imitation Learning for Robotic Manipulation

要約

データ スケーリングは、自然言語処理やコンピューター ビジョンなどの分野に革命をもたらし、顕著な一般化機能を備えたモデルを提供します。
この論文では、同様のデータ スケーリングの法則がロボット工学、特にロボット操作に存在するかどうか、また、適切なデータ スケーリングによって、あらゆる環境の同じカテゴリ内のあらゆるオブジェクトに対してゼロショットで展開できるシングルタスクのロボット ポリシーが得られるかどうかを調査します。
この目的のために、私たちは模倣学習におけるデータスケーリングに関する包括的な実証研究を実施します。
多数の環境やオブジェクトにわたってデータを収集することで、トレーニング環境、オブジェクト、デモンストレーションの数に応じてポリシーの一般化パフォーマンスがどのように変化するかを研究します。
研究を通じて、当社は 40,000 件を超えるデモンストレーションを収集し、厳格な評価プロトコルの下で 15,000 件を超える実際のロボットのロールアウトを実行しました。
私たちの調査結果では、いくつかの興味深い結果が明らかになりました。ポリシーの一般化パフォーマンスは、環境およびオブジェクトの数とおおよそべき乗則の関係に従います。
環境や物の多様性は、デモンストレーションの絶対数よりもはるかに重要です。
環境またはオブジェクトごとのデモンストレーションの数が特定のしきい値に達すると、追加のデモンストレーションの効果は最小限になります。
これらの洞察に基づいて、効率的なデータ収集戦略を提案します。
4 人のデータ コレクターが 1 日の午後に作業すると、目に見えないオブジェクトがある新しい環境で 2 つのタスクのポリシーが約 90% の成功率を達成できるようにするのに十分なデータが収集されます。

要約(オリジナル)

Data scaling has revolutionized fields like natural language processing and computer vision, providing models with remarkable generalization capabilities. In this paper, we investigate whether similar data scaling laws exist in robotics, particularly in robotic manipulation, and whether appropriate data scaling can yield single-task robot policies that can be deployed zero-shot for any object within the same category in any environment. To this end, we conduct a comprehensive empirical study on data scaling in imitation learning. By collecting data across numerous environments and objects, we study how a policy’s generalization performance changes with the number of training environments, objects, and demonstrations. Throughout our research, we collect over 40,000 demonstrations and execute more than 15,000 real-world robot rollouts under a rigorous evaluation protocol. Our findings reveal several intriguing results: the generalization performance of the policy follows a roughly power-law relationship with the number of environments and objects. The diversity of environments and objects is far more important than the absolute number of demonstrations; once the number of demonstrations per environment or object reaches a certain threshold, additional demonstrations have minimal effect. Based on these insights, we propose an efficient data collection strategy. With four data collectors working for one afternoon, we collect sufficient data to enable the policies for two tasks to achieve approximately 90% success rates in novel environments with unseen objects.

arxiv情報

著者 Fanqi Lin,Yingdong Hu,Pingyue Sheng,Chuan Wen,Jiacheng You,Yang Gao
発行日 2024-10-24 11:19:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク