要約
近年、大規模な人間のデモからの模倣学習は、ロボットポリシーをトレーニングするための有望なパラダイムとして浮上しています。
ただし、大量の人間のデモを収集する負担は、収集時間と専門家のオペレーターへのアクセスの必要性の点で重要です。
クラウドソーシングの原則とインセンティブデザインを利用することにより、ワークロードを分散する新しいデータ収集パラダイム、Robocrowdを紹介します。
Robocrowdは、スケーラブルなデータ収集の有効化を支援し、ロボットポリシーのより効率的な学習を促進します。
アロハの上にロボクロウドを構築します(Zhao etal。2023) – 操り人形様式を介してデータ収集をサポートする両手プラットフォーム – 公共環境での対面デモンストレーションをクラウドソーシングするための設計スペースを探索します。
3つのクラスのインセンティブメカニズムを提案して、システムとのやり取りのための動機付けのさまざまなソース、つまり重要な報酬、本質的な関心、社会的比較の3つのクラスを提案します。
これらのインセンティブは、物理的な報酬、魅力的または挑戦的な操作、およびリーダーボードなどのゲーミフィケーション要素を含むタスクを介してインスタンス化します。
私たちは、プラットフォームが大学のカフェにある大規模な2週間のフィールド実験を実施しています。
私たちはこのシステムとの大幅な関与を観察しています – 200人以上の個人が独立して合計800を超えるインタラクションエピソードを提供することを志願しました。
私たちの調査結果は、提案されたインセンティブを、ユーザーのデータの量と品質を形成するメカニズムとして検証しています。
さらに、クラウドソーシングされたデータは、専門家のデモンストレーションで微調整されたポリシーの有用なトレーニングデータとして役立つことを実証します。このデータが利用できない場合と比較して、パフォーマンスを最大20%増加させます。
これらの結果は、クラウドソーシングとインセンティブデザインの原則を慎重に実装することにより、ロボクロウドがロボットデータ収集の負担を軽減する可能性を示唆しています。
要約(オリジナル)
In recent years, imitation learning from large-scale human demonstrations has emerged as a promising paradigm for training robot policies. However, the burden of collecting large quantities of human demonstrations is significant in terms of collection time and the need for access to expert operators. We introduce a new data collection paradigm, RoboCrowd, which distributes the workload by utilizing crowdsourcing principles and incentive design. RoboCrowd helps enable scalable data collection and facilitates more efficient learning of robot policies. We build RoboCrowd on top of ALOHA (Zhao et al. 2023) — a bimanual platform that supports data collection via puppeteering — to explore the design space for crowdsourcing in-person demonstrations in a public environment. We propose three classes of incentive mechanisms to appeal to users’ varying sources of motivation for interacting with the system: material rewards, intrinsic interest, and social comparison. We instantiate these incentives through tasks that include physical rewards, engaging or challenging manipulations, as well as gamification elements such as a leaderboard. We conduct a large-scale, two-week field experiment in which the platform is situated in a university cafe. We observe significant engagement with the system — over 200 individuals independently volunteered to provide a total of over 800 interaction episodes. Our findings validate the proposed incentives as mechanisms for shaping users’ data quantity and quality. Further, we demonstrate that the crowdsourced data can serve as useful pre-training data for policies fine-tuned on expert demonstrations — boosting performance up to 20% compared to when this data is not available. These results suggest the potential for RoboCrowd to reduce the burden of robot data collection by carefully implementing crowdsourcing and incentive design principles.
arxiv情報
著者 | Suvir Mirchandani,David D. Yuan,Kaylee Burns,Md Sazzad Islam,Tony Z. Zhao,Chelsea Finn,Dorsa Sadigh |
発行日 | 2025-05-21 17:16:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google