Generalizable Task Representation Learning for Offline Meta-Reinforcement Learning with Data Limitations

要約

一般化とサンプル効率は強化学習に関する長年の課題であり、静的で限定されたオフライン データを使用して幅広い問題を解決できる可能性があるため、オフライン メタ強化学習 (OMRL) の分野がますます注目を集めています。
既存の OMRL 手法は、多くの場合、タスク表現を抽出するために対比学習を適用するために十分なトレーニング タスクとデータ カバレッジを前提としています。
ただし、そのような仮定はいくつかの現実世界のアプリケーションには適用できないため、表現の一般化能力が損なわれます。
この論文では、限られたトレーニング タスクと限られた行動の多様性という 2 つのタイプのデータ制限を持つ OMRL を考慮し、データ制限に直面して一般化可能なタスク表現を学習するための GENTLE と呼ばれる新しいアルゴリズムを提案します。
GENTLEでは、タスクの特徴を抽出するためのエンコーダ・デコーダアーキテクチャであるTask Auto-Encoder~(TAE)を採用しています。
既存の方法とは異なり、TAE は状態遷移と報酬の再構成によってのみ最適化されます。これにより、タスク モデルの生成構造が捕捉され、トレーニング タスクが制限されている場合に一般化可能な表現が生成されます。
制限された動作の多様性の影響を軽減するために、TAE のトレーニングに使用されるデータ分布をテスト中に発生したデータ分布と一致させる疑似遷移を一貫して構築します。
経験的に、GENTLE は、与えられたコンテキスト プロトコルとワンショット プロトコルの両方にわたって、ディストリビューション内タスクとディストリビューション外タスクの両方で既存の OMRL メソッドよりも大幅に優れたパフォーマンスを示します。

要約(オリジナル)

Generalization and sample efficiency have been long-standing issues concerning reinforcement learning, and thus the field of Offline Meta-Reinforcement Learning~(OMRL) has gained increasing attention due to its potential of solving a wide range of problems with static and limited offline data. Existing OMRL methods often assume sufficient training tasks and data coverage to apply contrastive learning to extract task representations. However, such assumptions are not applicable in several real-world applications and thus undermine the generalization ability of the representations. In this paper, we consider OMRL with two types of data limitations: limited training tasks and limited behavior diversity and propose a novel algorithm called GENTLE for learning generalizable task representations in the face of data limitations. GENTLE employs Task Auto-Encoder~(TAE), which is an encoder-decoder architecture to extract the characteristics of the tasks. Unlike existing methods, TAE is optimized solely by reconstruction of the state transition and reward, which captures the generative structure of the task models and produces generalizable representations when training tasks are limited. To alleviate the effect of limited behavior diversity, we consistently construct pseudo-transitions to align the data distribution used to train TAE with the data distribution encountered during testing. Empirically, GENTLE significantly outperforms existing OMRL methods on both in-distribution tasks and out-of-distribution tasks across both the given-context protocol and the one-shot protocol.

arxiv情報

著者 Renzhe Zhou,Chen-Xiao Gao,Zongzhang Zhang,Yang Yu
発行日 2023-12-26 07:02:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク