要約
インテリジェントなエージェントは、新しいタスクを迅速かつ効率的に学習するために、以前に学習したタスクの知識を活用する能力を備えている必要があります。
これを達成するための一般的なソリューションとして、メタ学習アプローチが登場しました。
ただし、メタ強化学習 (meta-RL) アルゴリズムは、これまでのところ、タスクの分布が狭い単純な環境に限定されていました。
さらに、新しいタスクに適応するための事前トレーニングとそれに続く微調整のパラダイムは、教師ありおよび自己教師あり学習におけるシンプルで効果的なソリューションとして浮上しています。
これは、強化学習においてもメタ学習アプローチの利点に疑問を投げかけていますが、通常は複雑さが高くなります。
したがって、Procgen、RLBench、Atari など、まったく新しいタスクで評価が行われるさまざまなビジョンベースのベンチマークでメタ RL アプローチを調査します。
私たちの調査結果は、メタ学習アプローチが (同じタスクのさまざまなバリエーションではなく) 異なるタスクで評価される場合、新しいタスクの微調整を伴うマルチタスク事前トレーニングは、メタを使用したメタ事前トレーニングと同等またはそれ以上のパフォーマンスを発揮することを示しています。
テスト時間の適応。
マルチタスクの事前トレーニングは、meta-RL よりも単純で計算コストが低い傾向があるため、これは将来の研究にとって励みになります。
これらの調査結果から、より困難なタスクで将来のメタ RL メソッドを評価し、シンプルでありながら強力なベースラインとして微調整を伴うマルチタスク事前トレーニングを含めることを提唱します。
要約(オリジナル)
Intelligent agents should have the ability to leverage knowledge from previously learned tasks in order to learn new ones quickly and efficiently. Meta-learning approaches have emerged as a popular solution to achieve this. However, meta-reinforcement learning (meta-RL) algorithms have thus far been restricted to simple environments with narrow task distributions. Moreover, the paradigm of pretraining followed by fine-tuning to adapt to new tasks has emerged as a simple yet effective solution in supervised and self-supervised learning. This calls into question the benefits of meta-learning approaches also in reinforcement learning, which typically come at the cost of high complexity. We hence investigate meta-RL approaches in a variety of vision-based benchmarks, including Procgen, RLBench, and Atari, where evaluations are made on completely novel tasks. Our findings show that when meta-learning approaches are evaluated on different tasks (rather than different variations of the same task), multi-task pretraining with fine-tuning on new tasks performs equally as well, or better, than meta-pretraining with meta test-time adaptation. This is encouraging for future research, as multi-task pretraining tends to be simpler and computationally cheaper than meta-RL. From these findings, we advocate for evaluating future meta-RL methods on more challenging tasks and including multi-task pretraining with fine-tuning as a simple, yet strong baseline.
arxiv情報
著者 | Zhao Mandi,Pieter Abbeel,Stephen James |
発行日 | 2023-02-16 16:54:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google