Curating Demonstrations using Online Experience

要約

多くのロボットデモンストレーションデータセットには、さまざまな品質の不均一なデモンストレーションが含まれています。
この不均一性は、ポリシーのトレーニングに役立つ可能性がありますが、最終的な模倣学習目標で使用するとロボットのパフォーマンスを妨げる可能性があります。
特に、データの一部の戦略は他の戦略よりも信頼性が低いか、データに過小評価されている可能性があり、テスト時にそのような戦略がサンプリングされた場合、パフォーマンスが低下します。
さらに、このような信頼性の低いまたは過小評価されている戦略は、人々が識別することでさえ困難であり、デモンストレーションデータセットをふるいにかけることは時間がかかり、費用がかかります。
一方、そのようなデモンストレーションで訓練された場合のポリシーパフォーマンスは、さまざまな戦略の信頼性を反映できます。
したがって、オンラインロボットエクスペリエンス(デモスコア)に基づいて、ロボットが自己選択することを提案します。
より具体的には、分類器をトレーニングおよび交差して、成功したポリシーロールアウトを失敗したものから識別し、分類器を使用して異種のデモデータセットをフィルタリングします。
シミュレーションと現実の世界での実験は、デモスコアが手動のキュレーションなしで最適ではないデモを効果的に特定できることを示しています。
特に、デモスコアは、すべての元のデモンストレーションで訓練された基本ポリシーと比較して、結果のポリシーで15〜35%以上の絶対成功率を達成しています。

要約(オリジナル)

Many robot demonstration datasets contain heterogeneous demonstrations of varying quality. This heterogeneity may benefit policy pre-training, but can hinder robot performance when used with a final imitation learning objective. In particular, some strategies in the data may be less reliable than others or may be underrepresented in the data, leading to poor performance when such strategies are sampled at test time. Moreover, such unreliable or underrepresented strategies can be difficult even for people to discern, and sifting through demonstration datasets is time-consuming and costly. On the other hand, policy performance when trained on such demonstrations can reflect the reliability of different strategies. We thus propose for robots to self-curate based on online robot experience (Demo-SCORE). More specifically, we train and cross-validate a classifier to discern successful policy roll-outs from unsuccessful ones and use the classifier to filter heterogeneous demonstration datasets. Our experiments in simulation and the real world show that Demo-SCORE can effectively identify suboptimal demonstrations without manual curation. Notably, Demo-SCORE achieves over 15-35% higher absolute success rate in the resulting policy compared to the base policy trained with all original demonstrations.

arxiv情報

著者 Annie S. Chen,Alec M. Lessing,Yuejiang Liu,Chelsea Finn
発行日 2025-03-05 17:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク