On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning

要約

知能エージェントは、新しいタスクを迅速かつ効率的に学習するために、以前に学習したタスクの知識を活用する能力を持つ必要がある。メタ学習は、これを実現するための一般的なソリューションとして登場した。しかし、メタ強化学習(meta-reinforcement learning: メタRL)アルゴリズムは、これまでのところ、タスクの分布が狭い単純な環境に限定されている。また、教師あり学習や自己教師あり学習では、事前学習の後に新しい課題に適応するための微調整を行うというパラダイムが、シンプルかつ効果的な解決策として浮上している。このことは、強化学習においてもメタ学習が有効であることを示唆している。メタ学習は、一般的に高い複雑性を伴う。そこで我々は、Procgen、RLBench、Atariなどの様々な視覚ベースのベンチマークにおいて、全く新しいタスクに対する評価を行い、メタRLアプローチを調査した。その結果、メタ学習手法を異なるタスク(同じタスクの異なるバリエーションではなく)で評価した場合、新しいタスクで微調整を行うマルチタスクプリトレーニングは、メタテスト時間適応を行うメタプリトレーニングと同等かそれ以上の性能を示すことがわかりました。これは、マルチタスク事前訓練がメタRLよりも単純で計算コストが低い傾向にあることから、今後の研究の励みになる。これらの結果から、我々は将来のメタRL手法をより困難なタスクで評価し、シンプルかつ強力なベースラインとして微調整を伴うマルチタスクプリトレーニングを含めることを提唱する。

要約(オリジナル)

Intelligent agents should have the ability to leverage knowledge from previously learned tasks in order to learn new ones quickly and efficiently. Meta-learning approaches have emerged as a popular solution to achieve this. However, meta-reinforcement learning (meta-RL) algorithms have thus far been restricted to simple environments with narrow task distributions. Moreover, the paradigm of pretraining followed by fine-tuning to adapt to new tasks has emerged as a simple yet effective solution in supervised and self-supervised learning. This calls into question the benefits of meta-learning approaches also in reinforcement learning, which typically come at the cost of high complexity. We hence investigate meta-RL approaches in a variety of vision-based benchmarks, including Procgen, RLBench, and Atari, where evaluations are made on completely novel tasks. Our findings show that when meta-learning approaches are evaluated on different tasks (rather than different variations of the same task), multi-task pretraining with fine-tuning on new tasks performs equally as well, or better, than meta-pretraining with meta test-time adaptation. This is encouraging for future research, as multi-task pretraining tends to be simpler and computationally cheaper than meta-RL. From these findings, we advocate for evaluating future meta-RL methods on more challenging tasks and including multi-task pretraining with fine-tuning as a simple, yet strong baseline.

arxiv情報

著者 Zhao Mandi,Pieter Abbeel,Stephen James
発行日 2022-06-07 13:24:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク