要約
模倣学習は、行動クローニングなどの従来のアプローチによって引き起こされる共変量シフトと複合エラーに対処する対話型アルゴリズムの最近の開発のおかげで、さまざまな自律システムに広く適用されています。
ただし、既存のインタラクティブな模倣学習方法は、1 人の完全な専門家にアクセスできることを前提としています。
実際には、複数の不完全な専門家がいる可能性が高くなります。
この論文では、複数の不完全な専門家とのインタラクティブな学習に適した新しい DAgger バリアントである MEGA-DAgger を提案します。
まず、安全でないデモンストレーションはトレーニング データの集計中にフィルター処理されるため、不完全なデモンストレーションは初心者ポリシーのトレーニング時にほとんど影響を与えません。
次に、エキスパートがシナリオ固有のメトリックで評価および比較され、エキスパート間の競合するラベルが解決されます。
自律型レース シナリオでの実験を通じて、MEGA-DAgger を使用して学習したポリシーが、最先端のインタラクティブな模倣学習アルゴリズムを使用して学習したエキスパートとポリシーの両方よりも優れていることを実証します。
補足ビデオは https://youtu.be/pYQiPSHk6dU にあります。
要約(オリジナル)
Imitation learning has been widely applied to various autonomous systems thanks to recent development in interactive algorithms that address covariate shift and compounding errors induced by traditional approaches like behavior cloning. However, existing interactive imitation learning methods assume access to one perfect expert. Whereas in reality, it is more likely to have multiple imperfect experts instead. In this paper, we propose MEGA-DAgger, a new DAgger variant that is suitable for interactive learning with multiple imperfect experts. First, unsafe demonstrations are filtered while aggregating the training data, so the imperfect demonstrations have little influence when training the novice policy. Next, experts are evaluated and compared on scenarios-specific metrics to resolve the conflicted labels among experts. Through experiments in autonomous racing scenarios, we demonstrate that policy learned using MEGA-DAgger can outperform both experts and policies learned using the state-of-the-art interactive imitation learning algorithm. The supplementary video can be found at https://youtu.be/pYQiPSHk6dU.
arxiv情報
著者 | Xiatao Sun,Shuo Yang,Rahul Mangharam |
発行日 | 2023-03-01 16:40:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google