要約
模倣学習は、ロボット制御ポリシーをトレーニングするための有望なパラダイムですが、これらのポリシーは、評価時の条件がトレーニング データの条件と異なる分布シフトの影響を受ける可能性があります。
分散シフトに対するポリシーの堅牢性を高めるための一般的なアプローチは、人間のオペレーターがポリシーの展開中に修正介入を提供する対話型模倣学習 (つまり、DAgger およびバリアント) です。
ただし、ポリシーミスの分布をカバーするのに十分な量の介入を収集することは、人間のオペレーターにとって負担となる可能性があります。
我々は、少数の人的介入から状態空間を豊富にカバーする大規模な修正介入を自律的に生成できる新しいデータ生成システムである IntervenGen (I-Gen) を提案します。
I-Gen を 4 つのシミュレートされた環境と、物体姿勢推定エラーのある 1 つの物理環境に適用し、わずか 10 回の人的介入でポリシーの堅牢性を最大 39 倍向上できることを示します。
ビデオとその他の結果は、https://sites.google.com/view/intervengen2024 でご覧いただけます。
要約(オリジナル)
Imitation learning is a promising paradigm for training robot control policies, but these policies can suffer from distribution shift, where the conditions at evaluation time differ from those in the training data. A popular approach for increasing policy robustness to distribution shift is interactive imitation learning (i.e., DAgger and variants), where a human operator provides corrective interventions during policy rollouts. However, collecting a sufficient amount of interventions to cover the distribution of policy mistakes can be burdensome for human operators. We propose IntervenGen (I-Gen), a novel data generation system that can autonomously produce a large set of corrective interventions with rich coverage of the state space from a small number of human interventions. We apply I-Gen to 4 simulated environments and 1 physical environment with object pose estimation error and show that it can increase policy robustness by up to 39x with only 10 human interventions. Videos and more results are available at https://sites.google.com/view/intervengen2024.
arxiv情報
著者 | Ryan Hoque,Ajay Mandlekar,Caelan Garrett,Ken Goldberg,Dieter Fox |
発行日 | 2024-05-02 17:06:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google