Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot Policy Imitation

要約

この論文では、制御問題に対する少数ショット模倣学習について検討します。これには、限られたオフライン ロールアウトのセットにアクセスしてターゲット ポリシーを模倣する方法を学習することが含まれます。
この設定は、ロボット工学や制御アプリケーションとの関連性があるにもかかわらず、比較的研究されていません。
少数ショットの模倣に取り組むために開発された最先端の手法はメタ学習に依存していますが、メタ学習にはタスク上の分布(多くのターゲット ポリシーやベース環境のバリエーションからのロールアウト)へのアクセスが必要なため、トレーニングにコストがかかります。
この制限を考慮して、私たちは代替アプローチであるファインチューニングを調査します。これは、単一のデータセットで事前トレーニングし、次に目に見えないドメイン固有のデータで微調整する一連の方法です。
最近の研究では、特にデータがドメイン外にある場合、ファインチューナーが数ショットの画像分類タスクにおいてメタ学習器よりも優れたパフォーマンスを発揮することが示されています。
ここでは、これが制御問題にどの程度当てはまるかを評価し、次の 2 つの段階に依存するシンプルかつ効果的なベースラインを提案します: (i) 単一のベース環境上で強化学習 (ソフト アクター-クリティックなど) を介してベース ポリシーをオンラインでトレーニングする。
ii) ターゲット ポリシーのいくつかのオフライン ロールアウトで動作クローンを作成することにより、ベース ポリシーを微調整します。
その単純さにもかかわらず、このベースラインはさまざまな条件でメタ学習手法と競合し、元の環境の目に見えない変化に基づいてトレーニングされたターゲット ポリシーを模倣することができます。
重要なのは、提案されたアプローチは複雑なメタトレーニング プロトコルを必要としないため、実用的で実装が簡単であるということです。
さらなる貢献として、iMuJoCo (iMitation MuJoCo) と呼ばれるオープンソース データセットをリリースします。これは、関連する事前トレーニングされたターゲット ポリシーとロールアウトを備えた人気の OpenAI-Gym MuJoCo 環境の 154 のバリアントで構成されており、コミュニティが少数ショット模倣学習を研究するために使用できます。
そしてオフライン強化学習。

要約(オリジナル)

In this paper we explore few-shot imitation learning for control problems, which involves learning to imitate a target policy by accessing a limited set of offline rollouts. This setting has been relatively under-explored despite its relevance to robotics and control applications. State-of-the-art methods developed to tackle few-shot imitation rely on meta-learning, which is expensive to train as it requires access to a distribution over tasks (rollouts from many target policies and variations of the base environment). Given this limitation we investigate an alternative approach, fine-tuning, a family of methods that pretrain on a single dataset and then fine-tune on unseen domain-specific data. Recent work has shown that fine-tuners outperform meta-learners in few-shot image classification tasks, especially when the data is out-of-domain. Here we evaluate to what extent this is true for control problems, proposing a simple yet effective baseline which relies on two stages: (i) training a base policy online via reinforcement learning (e.g. Soft Actor-Critic) on a single base environment, (ii) fine-tuning the base policy via behavioral cloning on a few offline rollouts of the target policy. Despite its simplicity this baseline is competitive with meta-learning methods on a variety of conditions and is able to imitate target policies trained on unseen variations of the original environment. Importantly, the proposed approach is practical and easy to implement, as it does not need any complex meta-training protocol. As a further contribution, we release an open source dataset called iMuJoCo (iMitation MuJoCo) consisting of 154 variants of popular OpenAI-Gym MuJoCo environments with associated pretrained target policies and rollouts, which can be used by the community to study few-shot imitation learning and offline reinforcement learning.

arxiv情報

著者 Massimiliano Patacchiola,Mingfei Sun,Katja Hofmann,Richard E. Turner
発行日 2023-06-23 15:29:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク