要約
この論文では、現実世界のアプリケーションで一般的な状況である、ヘビーテールの報酬が満載のシナリオにおけるオフライン強化学習 (RL) の堅牢性を強化することを目指しています。
我々は、それぞれ堅牢なオフポリシー評価とオフラインポリシー最適化(OPO)のために、ROAMとROOMという2つのアルゴリズムフレームワークを提案します。
私たちのフレームワークの中心となるのは、平均値中央値法とオフライン RL を戦略的に組み込むことで、価値関数推定器の不確実性の単純な推定を可能にします。
これは、OPO の悲観主義の原則を遵守するだけでなく、ヘビーテールの報酬も適切に管理します。
理論的結果と広範な実験により、私たちの 2 つのフレームワークが、ヘビーテールの報酬分布を示すログ データセットに対して既存の手法よりも優れたパフォーマンスを発揮することが実証されています。
提案の実装は https://github.com/Mamba413/ROOM で入手できます。
要約(オリジナル)
This paper endeavors to augment the robustness of offline reinforcement learning (RL) in scenarios laden with heavy-tailed rewards, a prevalent circumstance in real-world applications. We propose two algorithmic frameworks, ROAM and ROOM, for robust off-policy evaluation and offline policy optimization (OPO), respectively. Central to our frameworks is the strategic incorporation of the median-of-means method with offline RL, enabling straightforward uncertainty estimation for the value function estimator. This not only adheres to the principle of pessimism in OPO but also adeptly manages heavy-tailed rewards. Theoretical results and extensive experiments demonstrate that our two frameworks outperform existing methods on the logged dataset exhibits heavy-tailed reward distributions. The implementation of the proposal is available at https://github.com/Mamba413/ROOM.
arxiv情報
著者 | Jin Zhu,Runzhe Wan,Zhengling Qi,Shikai Luo,Chengchun Shi |
発行日 | 2024-03-30 16:16:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google