Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets

要約

オフライン政策学習は、追加のデータを収集せずに、既存の軌跡のデータセットを使用して意思決定政策を学習することを目的としています。
行動複製などの教師あり学習手法の代わりに強化学習 (RL) を使用する主な動機は、データセットを構成する軌跡よりも高い平均リターンを達成するポリシーを見つけることです。
ただし、データセットが最適ではない軌道によって支配されている場合、最先端のオフライン RL アルゴリズムはデータセット内の軌道の平均リターンを大幅に改善しないことが経験的にわかります。
これは、現在のオフライン RL アルゴリズムがデータセット内の軌跡の近くに留まるという仮定を行っているためであると私たちは主張します。
データセットが主に次善の軌跡で構成されている場合、この仮定によりポリシーは次善のアクションを模倣することになります。
我々は、データセット内のすべてのアクションではなく、「適切なデータ」のみにポリシーを制限できるサンプリング戦略 (つまり、均一なサンプリング) を提案することで、この問題を解決しました。
サンプリング戦略の実現と、標準オフライン RL アルゴリズムのプラグ アンド プレイ モジュールとして使用できるアルゴリズムを紹介します。
私たちの評価では、72 の不均衡なデータセット、D4RL データセット、および 3 つの異なるオフライン RL アルゴリズムにわたって大幅なパフォーマンスの向上が実証されました。
コードは https://github.com/Improbable-AI/dw-offline-rl で入手できます。

要約(オリジナル)

Offline policy learning is aimed at learning decision-making policies using existing datasets of trajectories without collecting additional data. The primary motivation for using reinforcement learning (RL) instead of supervised learning techniques such as behavior cloning is to find a policy that achieves a higher average return than the trajectories constituting the dataset. However, we empirically find that when a dataset is dominated by suboptimal trajectories, state-of-the-art offline RL algorithms do not substantially improve over the average return of trajectories in the dataset. We argue this is due to an assumption made by current offline RL algorithms of staying close to the trajectories in the dataset. If the dataset primarily consists of sub-optimal trajectories, this assumption forces the policy to mimic the suboptimal actions. We overcome this issue by proposing a sampling strategy that enables the policy to only be constrained to “good data’ rather than all actions in the dataset (i.e., uniform sampling). We present a realization of the sampling strategy and an algorithm that can be used as a plug-and-play module in standard offline RL algorithms. Our evaluation demonstrates significant performance gains in 72 imbalanced datasets, D4RL dataset, and across three different offline RL algorithms. Code is available at https://github.com/Improbable-AI/dw-offline-rl.

arxiv情報

著者 Zhang-Wei Hong,Aviral Kumar,Sathwik Karnik,Abhishek Bhandwaldar,Akash Srivastava,Joni Pajarinen,Romain Laroche,Abhishek Gupta,Pulkit Agrawal
発行日 2023-10-06 17:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク