要約
模倣学習は、行動クローニングなどの従来のアプローチによって引き起こされる共変量シフトや複合誤差に対処する対話型アルゴリズムの最近の開発のおかげで、さまざまな自律システムに広く適用されています。
しかし、既存のインタラクティブな模倣学習方法は、1 人の完璧な専門家にアクセスできることを前提としています。
しかし実際には、不完全な専門家が複数存在する可能性が高くなります。
この論文では、複数の不完全な専門家との対話型学習に適した新しい DAgger の亜種である MEGA-DAgger を提案します。
まず、安全でないデモンストレーションはトレーニング データの集約中にフィルタリングされるため、初心者ポリシーをトレーニングする場合、不完全なデモンストレーションはほとんど影響を与えません。
次に、専門家間のラベルの矛盾を解決するために、シナリオ固有の指標に基づいて専門家が評価および比較されます。
自律型レーシング シナリオでの実験を通じて、MEGA-DAgger を使用して学習したポリシーが、Human-Gated DAgger などの最先端の対話型模倣学習アルゴリズムを使用して学習した専門家やポリシーの両方を上回るパフォーマンスを発揮できることを実証しました。
補足ビデオは \url{https://youtu.be/wPCht31MHrw} でご覧いただけます。
要約(オリジナル)
Imitation learning has been widely applied to various autonomous systems thanks to recent development in interactive algorithms that address covariate shift and compounding errors induced by traditional approaches like behavior cloning. However, existing interactive imitation learning methods assume access to one perfect expert. Whereas in reality, it is more likely to have multiple imperfect experts instead. In this paper, we propose MEGA-DAgger, a new DAgger variant that is suitable for interactive learning with multiple imperfect experts. First, unsafe demonstrations are filtered while aggregating the training data, so the imperfect demonstrations have little influence when training the novice policy. Next, experts are evaluated and compared on scenarios-specific metrics to resolve the conflicted labels among experts. Through experiments in autonomous racing scenarios, we demonstrate that policy learned using MEGA-DAgger can outperform both experts and policies learned using the state-of-the-art interactive imitation learning algorithms such as Human-Gated DAgger. The supplementary video can be found at \url{https://youtu.be/wPCht31MHrw}.
arxiv情報
著者 | Xiatao Sun,Shuo Yang,Mingyan Zhou,Kunpeng Liu,Rahul Mangharam |
発行日 | 2024-05-02 14:51:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google