Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories

要約

Natural エージェントは、サイズ、品質、測定の種類が異なる複数のデータ ソースから効果的に学習できます。
私たちは、実際に動機付けられた新しい半教師あり設定を導入することにより、オフライン強化学習 (RL) のコンテキストでこの異質性を研究します。
ここで、エージェントは 2 セットの軌跡にアクセスできます。1 つはタイムステップごとに状態、アクション、報酬の 3 つの要素を含むラベル付きの軌跡で、もう 1 つは状態と報酬の情報のみを含むラベルのない軌跡です。
この設定では、ラベル付きデータの逆ダイナミクス モデルを学習してラベルなしデータのプロキシ ラベルを取得し、その後、実際のラベル付きデータとプロキシ ラベル付きデータに対してオフライン RL アルゴリズムを使用する単純なメタアルゴリズム パイプラインを開発および研究します。
軌跡。
経験的に、このシンプルなパイプラインは非常に成功していることがわかりました。いくつかの D4RL ベンチマークでは、~\cite{fu2020d4rl}、特定のオフライン RL アルゴリズムは、軌跡の 10\% のみにラベルを付けた場合でも、完全にラベル付けされたデータセットでトレーニングされたバリアントのパフォーマンスに匹敵します。
これは非常に最適ではありません。
理解を強化するために、ラベル付きデータセットとラベルなしデータセットのデータ中心の特性とアルゴリズム設計の選択 (例: 逆ダイナミクス、オフライン RL アルゴリズムの選択) の相互作用を調査する大規模な制御された実証研究を実行して、一般的な傾向を特定し、
半教師付きオフライン データセットで RL エージェントをトレーニングするためのベスト プラクティス。

要約(オリジナル)

Natural agents can effectively learn from multiple data sources that differ in size, quality, and types of measurements. We study this heterogeneity in the context of offline reinforcement learning (RL) by introducing a new, practically motivated semi-supervised setting. Here, an agent has access to two sets of trajectories: labelled trajectories containing state, action and reward triplets at every timestep, along with unlabelled trajectories that contain only state and reward information. For this setting, we develop and study a simple meta-algorithmic pipeline that learns an inverse dynamics model on the labelled data to obtain proxy-labels for the unlabelled data, followed by the use of any offline RL algorithm on the true and proxy-labelled trajectories. Empirically, we find this simple pipeline to be highly successful — on several D4RL benchmarks~\cite{fu2020d4rl}, certain offline RL algorithms can match the performance of variants trained on a fully labelled dataset even when we label only 10\% of trajectories which are highly suboptimal. To strengthen our understanding, we perform a large-scale controlled empirical study investigating the interplay of data-centric properties of the labelled and unlabelled datasets, with algorithmic design choices (e.g., choice of inverse dynamics, offline RL algorithm) to identify general trends and best practices for training RL agents on semi-supervised offline datasets.

arxiv情報

著者 Qinqing Zheng,Mikael Henaff,Brandon Amos,Aditya Grover
発行日 2023-06-22 16:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク