要約
近年、人間による大規模なデモンストレーションからの模倣学習が、ロボットの訓練政策における有望なパラダイムとして浮上しています。
しかし、人間のデモンストレーションを大量に収集することの負担は、収集時間と専門オペレーターへのアクセスの必要性の点で重大です。
クラウドソーシングの原則とインセンティブ設計を利用してワークロードを分散する、新しいデータ収集パラダイムである RoboCrowd を紹介します。
RoboCrowd は、スケーラブルなデータ収集を可能にし、ロボット ポリシーのより効率的な学習を促進します。
私たちは、ALOHA (Zhao et al. 2023) (人形操縦によるデータ収集をサポートする両手操作プラットフォーム) 上に RoboCrowd を構築し、公共環境での対面デモンストレーションをクラウドソーシングするための設計空間を探索します。
我々は、システムと対話するためのユーザーのさまざまな動機源にアピールするための 3 つのクラスのインセンティブ メカニズムを提案します。つまり、物質的な報酬、本質的な関心、社会的比較です。
これらのインセンティブは、物理的な報酬、魅力的または挑戦的な操作、リーダーボードなどのゲーミフィケーション要素を含むタスクを通じてインスタンス化されます。
プラットフォームを大学のカフェに設置し、2週間にわたる大規模なフィールド実験を実施します。
私たちは、このシステムへの多大な関与を観察しています。200 人を超える個人が自主的に自主的にボランティア活動を行い、合計 800 を超えるインタラクション エピソードを提供しました。
私たちの調査結果は、提案されたインセンティブがユーザーのデータの量と質を形成するためのメカニズムであることを検証します。
さらに、クラウドソーシングされたデータが、専門家のデモンストレーションに基づいて微調整されたポリシーの有用な事前トレーニング データとして機能し、このデータが利用できない場合と比較してパフォーマンスが最大 20% 向上することを実証します。
これらの結果は、RoboCrowd がクラウドソーシングとインセンティブ設計原則を慎重に実装することで、ロボット データ収集の負担を軽減できる可能性を示唆しています。
要約(オリジナル)
In recent years, imitation learning from large-scale human demonstrations has emerged as a promising paradigm for training robot policies. However, the burden of collecting large quantities of human demonstrations is significant in terms of collection time and the need for access to expert operators. We introduce a new data collection paradigm, RoboCrowd, which distributes the workload by utilizing crowdsourcing principles and incentive design. RoboCrowd helps enable scalable data collection and facilitates more efficient learning of robot policies. We build RoboCrowd on top of ALOHA (Zhao et al. 2023) — a bimanual platform that supports data collection via puppeteering — to explore the design space for crowdsourcing in-person demonstrations in a public environment. We propose three classes of incentive mechanisms to appeal to users’ varying sources of motivation for interacting with the system: material rewards, intrinsic interest, and social comparison. We instantiate these incentives through tasks that include physical rewards, engaging or challenging manipulations, as well as gamification elements such as a leaderboard. We conduct a large-scale, two-week field experiment in which the platform is situated in a university cafe. We observe significant engagement with the system — over 200 individuals independently volunteered to provide a total of over 800 interaction episodes. Our findings validate the proposed incentives as mechanisms for shaping users’ data quantity and quality. Further, we demonstrate that the crowdsourced data can serve as useful pre-training data for policies fine-tuned on expert demonstrations — boosting performance up to 20% compared to when this data is not available. These results suggest the potential for RoboCrowd to reduce the burden of robot data collection by carefully implementing crowdsourcing and incentive design principles.
arxiv情報
著者 | Suvir Mirchandani,David D. Yuan,Kaylee Burns,Md Sazzad Islam,Tony Z. Zhao,Chelsea Finn,Dorsa Sadigh |
発行日 | 2024-11-04 09:27:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google