要約
RL$^2$ などのメタ強化学習 (meta-RL) 手法は、特定のタスク分布に合わせてデータ効率の高い RL アルゴリズムを学習するための有望なアプローチとして浮上しています。
ただし、値関数などの汎用 RL コンポーネントを使用してエクスペリエンスを要約するのではなく、リカレント ニューラル ネットワークやトランスフォーマーなどのシーケンス モデルに依存してエクスペリエンスを処理するため、漸近パフォーマンスが低く、分布外タスクに苦労します。
対照的に、従来の RL アルゴリズムは、ドメイン知識を使用しないためデータ効率が低いですが、限界内で最適なポリシーに収束します。
我々は、従来の RL を通じてタスクごとに学習された行動価値をメタ RL への入力に組み込む原則に基づいたハイブリッド アプローチである RL$^3$ を提案します。
RL$^3$ は、短期的にはデータ効率を維持しながら、RL$^2$ と比較して、長期的にはより大きな累積報酬を獲得し、分散外タスクによりよく一般化できることを示します。
実験は、短期、長期、複雑な依存関係の範囲を示すメタ RL 文献からのカスタム ドメインとベンチマークの個別ドメインの両方で行われます。
要約(オリジナル)
Meta reinforcement learning (meta-RL) methods such as RL$^2$ have emerged as promising approaches for learning data-efficient RL algorithms tailored to a given task distribution. However, they show poor asymptotic performance and struggle with out-of-distribution tasks because they rely on sequence models, such as recurrent neural networks or transformers, to process experiences rather than summarize them using general-purpose RL components such as value functions. In contrast, traditional RL algorithms are data-inefficient as they do not use domain knowledge, but they do converge to an optimal policy in the limit. We propose RL$^3$, a principled hybrid approach that incorporates action-values, learned per task through traditional RL, in the inputs to meta-RL. We show that RL$^3$ earns greater cumulative reward in the long term, compared to RL$^2$, while maintaining data-efficiency in the short term, and generalizes better to out-of-distribution tasks. Experiments are conducted on both custom and benchmark discrete domains from the meta-RL literature that exhibit a range of short-term, long-term, and complex dependencies.
arxiv情報
著者 | Abhinav Bhatia,Samer B. Nashed,Shlomo Zilberstein |
発行日 | 2024-03-26 15:13:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google