要約
この論文では、静的なデモンストレーション データから模倣ポリシーを事前トレーニングし、その後、最小限の環境相互作用で高速微調整を行う、オフラインからオンラインへの模倣学習 (IL) について研究します。
既存のオフライン IL とオンライン IL の単純な組み合わせは、このコンテキストではうまく動作しない傾向があることがわかりました。これは、初期識別子 (オンライン IL でよく使用される) がポリシーの初期化に対してランダムかつ不調和に動作し、誤ったポリシーの最適化につながり、
$\textit{unlearning}$ の事前トレーニング知識。
この課題を克服するために、$\texttt{OLLIE}$ という名前の原則に基づいたオフラインからオンラインへの IL メソッドを提案します。これは、$\textit{aligned discriminatorInitialization}$ とともに、ほぼ専門家に近いポリシーの初期化を同時に学習します。
オンライン IL にシームレスに統合され、スムーズかつ高速な微調整が実現します。
経験的に、$\texttt{OLLIE}$ は、連続制御からビジョンベースの領域まで、$\textbf{20}$ の困難なタスクにおいて、パフォーマンス、デモンストレーション効率、収束速度の点で、ベースライン手法よりも一貫して大幅に優れています。
この研究は、IL のコンテキストにおける事前トレーニングと微調整をさらに探求するための基礎として機能する可能性があります。
要約(オリジナル)
In this paper, we study offline-to-online Imitation Learning (IL) that pretrains an imitation policy from static demonstration data, followed by fast finetuning with minimal environmental interaction. We find the na\’ive combination of existing offline IL and online IL methods tends to behave poorly in this context, because the initial discriminator (often used in online IL) operates randomly and discordantly against the policy initialization, leading to misguided policy optimization and $\textit{unlearning}$ of pretraining knowledge. To overcome this challenge, we propose a principled offline-to-online IL method, named $\texttt{OLLIE}$, that simultaneously learns a near-expert policy initialization along with an $\textit{aligned discriminator initialization}$, which can be seamlessly integrated into online IL, achieving smooth and fast finetuning. Empirically, $\texttt{OLLIE}$ consistently and significantly outperforms the baseline methods in $\textbf{20}$ challenging tasks, from continuous control to vision-based domains, in terms of performance, demonstration efficiency, and convergence speed. This work may serve as a foundation for further exploration of pretraining and finetuning in the context of IL.
arxiv情報
著者 | Sheng Yue,Xingyuan Hua,Ju Ren,Sen Lin,Junshan Zhang,Yaoxue Zhang |
発行日 | 2024-05-30 17:11:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google