BECAUSE: Bilinear Causal Representation for Generalizable Offline Model-based Reinforcement Learning

要約

オフラインのモデルベース強化学習 (MBRL) は、特に探索にコストがかかるか実行不可能なシナリオにおいて、事前に収集されたデータセットを利用してモデルとポリシーを学習することにより、データ効率を高めます。
それにもかかわらず、そのパフォーマンスはモデルとポリシー学習の間の客観的な不一致によってしばしば問題となり、その結果、正確なモデル予測にもかかわらずパフォーマンスが低下します。
この論文では、まず、この不一致の主な原因が、MBRL のオフライン データに存在する根本的な交絡因子に由来していることを特定します。
続いて、\textbf{B}ilin\textbf{E}ar \textbf{CAUS}al r\textbf{E}presentation~(BECAUSE) を紹介します。これは、状態とアクションの両方の因果表現をキャプチャして、影響を軽減するアルゴリズムです。
分布のシフトにより、客観的な不一致の問題が軽減されます。
データ品質と環境コンテキストが異なる 18 のタスクに関する包括的な評価により、既存のオフライン RL アルゴリズムよりも優れた BECAUSE のパフォーマンスが実証されました。
より少ないサンプルまたはより多数の交絡因子の下での BECAUSE の一般化可能性と堅牢性を示します。
さらに、因果表現をオフライン MBRL に統合する際の誤差限界とサンプル効率を証明するために、BECAUSE の理論的分析を提供します。

要約(オリジナル)

Offline model-based reinforcement learning (MBRL) enhances data efficiency by utilizing pre-collected datasets to learn models and policies, especially in scenarios where exploration is costly or infeasible. Nevertheless, its performance often suffers from the objective mismatch between model and policy learning, resulting in inferior performance despite accurate model predictions. This paper first identifies the primary source of this mismatch comes from the underlying confounders present in offline data for MBRL. Subsequently, we introduce \textbf{B}ilin\textbf{E}ar \textbf{CAUS}al r\textbf{E}presentation~(BECAUSE), an algorithm to capture causal representation for both states and actions to reduce the influence of the distribution shift, thus mitigating the objective mismatch problem. Comprehensive evaluations on 18 tasks that vary in data quality and environment context demonstrate the superior performance of BECAUSE over existing offline RL algorithms. We show the generalizability and robustness of BECAUSE under fewer samples or larger numbers of confounders. Additionally, we offer theoretical analysis of BECAUSE to prove its error bound and sample efficiency when integrating causal representation into offline MBRL.

arxiv情報

著者 Haohong Lin,Wenhao Ding,Jian Chen,Laixi Shi,Jiacheng Zhu,Bo Li,Ding Zhao
発行日 2024-07-15 17:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク