要約
深層強化学習は、複雑な意思決定に対する強力なアプローチです。
ただし、その実用化を制限する問題の 1 つはその脆さであり、環境の小さな変化があるとトレーニングに失敗することがあります。
この研究は、既にトレーニング済みのモデルを関連タスクに直接適用すること (ゼロショット転送とも呼ばれます) が非常にうまく機能することが多いという経験的観察によって動機付けられています。
この実践的なトリックをさらに一歩進めて、トレーニングに適したタスクを体系的に選択し、さまざまなタスクにわたって全体的なパフォーマンスを最大化する方法を検討します。
トレーニングのコストが高いことを考慮すると、少数のトレーニング タスクのセットを選択することが重要です。
私たちのアプローチの背後にある重要な考え方は、トレーニング済みモデルの転送によって生じるパフォーマンス損失 (汎化ギャップ) を明示的にモデル化することです。
そこで、文脈に応じた RL 問題を解決するためのモデルベース転移学習 (MBTL) を導入します。
この研究では、タスク コンテキストの類似性の単純な線形関数としてパフォーマンスの損失をモデル化します。
さらに、ベイジアン最適化手法を活用して、タスク空間の未知のトレーニングパフォーマンスを効率的にモデル化し、推定します。
この方法がトレーニング タスクの数において線形未満であるリグレスを示すことを理論的に示し、リグレスの限界をさらに厳しくするための条件について議論します。
都市交通と標準的な制御ベンチマークを使用して、手法を実験的に検証します。
概念的な単純さにもかかわらず、実験結果は、MBTL がすべてのタスクの徹底的なトレーニング、マルチタスク トレーニング、トレーニング タスクのランダムな選択など、強力なベースラインよりも優れたパフォーマンスを達成できることを示唆しています。
この研究は、一般化の明示的なモデリングを調査するための基礎を築き、それによって状況依存型 RL のための原則的でありながら効果的な方法を可能にします。
要約(オリジナル)
Deep reinforcement learning is a powerful approach to complex decision making. However, one issue that limits its practical application is its brittleness, sometimes failing to train in the presence of small changes in the environment. This work is motivated by the empirical observation that directly applying an already trained model to a related task often works remarkably well, also called zero-shot transfer. We take this practical trick one step further to consider how to systematically select good tasks to train, maximizing overall performance across a range of tasks. Given the high cost of training, it is critical to choose a small set of training tasks. The key idea behind our approach is to explicitly model the performance loss (generalization gap) incurred by transferring a trained model. We hence introduce Model-Based Transfer Learning (MBTL) for solving contextual RL problems. In this work, we model the performance loss as a simple linear function of task context similarity. Furthermore, we leverage Bayesian optimization techniques to efficiently model and estimate the unknown training performance of the task space. We theoretically show that the method exhibits regret that is sublinear in the number of training tasks and discuss conditions to further tighten regret bounds. We experimentally validate our methods using urban traffic and standard control benchmarks. Despite the conceptual simplicity, the experimental results suggest that MBTL can achieve greater performance than strong baselines, including exhaustive training on all tasks, multi-task training, and random selection of training tasks. This work lays the foundations for investigating explicit modeling of generalization, thereby enabling principled yet effective methods for contextual RL.
arxiv情報
著者 | Jung-Hoon Cho,Vindula Jayawardana,Sirui Li,Cathy Wu |
発行日 | 2024-08-08 14:46:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google