要約
深層強化学習 (RL) は、複雑な意思決定に対する強力なアプローチです。
ただし、その実用化を制限する問題の 1 つはその脆さであり、環境の小さな変化があるとトレーニングに失敗することがあります。
ゼロショット転送の成功 (事前トレーニング済みモデルが関連タスクで良好なパフォーマンスを示す) を動機として、さまざまなタスクにわたって汎化パフォーマンスを最大化するための適切なトレーニング タスクのセットを選択するという問題を検討します。
トレーニングのコストが高いことを考慮すると、トレーニング タスクを戦略的に選択することが重要ですが、その方法は十分に理解されていません。
そこで、既存の RL 手法の上に重ねてコンテキスト RL 問題を効果的に解決するモデルベース転移学習 (MBTL) を導入します。
MBTL は、汎化パフォーマンスを 2 つの部分でモデル化します。1) ガウス プロセスを使用してモデル化されたパフォーマンス設定点、2) コンテキストの類似性の線形関数としてモデル化されたパフォーマンス損失 (汎化ギャップ)。
MBTL は、ベイズ最適化 (BO) フレームワーク内でこれら 2 つの情報を組み合わせて、トレーニング タスクを戦略的に選択します。
この方法がトレーニング タスクの数において線形未満の後悔を示すことを理論的に示し、後悔の限界をさらに厳しくするための条件について議論します。
都市交通と標準的な連続制御ベンチマークを使用して、手法を実験的に検証します。
実験結果は、MBTL が正規の独立トレーニングやマルチタスク トレーニングと比較してサンプル効率を最大 50 倍向上できることを示唆しています。
さらなる実験により、BO の有効性と、基礎となる RL アルゴリズムおよびハイパーパラメータに対する非感受性が実証されました。
この研究は、一般化の明示的なモデリングを調査するための基礎を築き、それによって状況依存型 RL のための原則的でありながら効果的な方法を可能にします。
要約(オリジナル)
Deep reinforcement learning (RL) is a powerful approach to complex decision making. However, one issue that limits its practical application is its brittleness, sometimes failing to train in the presence of small changes in the environment. Motivated by the success of zero-shot transfer-where pre-trained models perform well on related tasks-we consider the problem of selecting a good set of training tasks to maximize generalization performance across a range of tasks. Given the high cost of training, it is critical to select training tasks strategically, but not well understood how to do so. We hence introduce Model-Based Transfer Learning (MBTL), which layers on top of existing RL methods to effectively solve contextual RL problems. MBTL models the generalization performance in two parts: 1) the performance set point, modeled using Gaussian processes, and 2) performance loss (generalization gap), modeled as a linear function of contextual similarity. MBTL combines these two pieces of information within a Bayesian optimization (BO) framework to strategically select training tasks. We show theoretically that the method exhibits sublinear regret in the number of training tasks and discuss conditions to further tighten regret bounds. We experimentally validate our methods using urban traffic and standard continuous control benchmarks. The experimental results suggest that MBTL can achieve up to 50x improved sample efficiency compared with canonical independent training and multi-task training. Further experiments demonstrate the efficacy of BO and the insensitivity to the underlying RL algorithm and hyperparameters. This work lays the foundations for investigating explicit modeling of generalization, thereby enabling principled yet effective methods for contextual RL.
arxiv情報
著者 | Jung-Hoon Cho,Vindula Jayawardana,Sirui Li,Cathy Wu |
発行日 | 2024-11-21 16:40:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google