Causal Deep Reinforcement Learning Using Observational Data

要約

深層強化学習 (DRL) には介入データの収集が必要ですが、自動運転や医療分野などの現実世界では、介入データの収集に費用がかかり、非倫理的になる場合もあります。
オフライン強化学習は、現実世界で利用可能な膨大な量の観測データを活用することで、この問題を軽減することが期待されています。
ただし、データを生成する行動ポリシーが観測されていない確率変数 (交絡因子) に依存している場合、観測データは学習エージェントを誤って望ましくない結果に導く可能性があります。
この論文では、この問題に対処するために、DRL における 2 つの脱交絡法を提案します。
この方法では、まず因果推論技術に基づいてさまざまなサンプルの重要度を計算し、次にオフライン データセットを再重み付けまたは再サンプリングして不偏性を確保することで、さまざまなサンプルの損失関数への影響を調整します。
これらの解絡手法は、これらのアルゴリズムの損失関数によって弱い条件が満たされる場合、ソフト アクター クリティカルやディープ Q ラーニングなどの既存のモデルフリー DRL アルゴリズムと柔軟に組み合わせることができます。
私たちは交絡解消法の有効性を証明し、実験的に検証します。

要約(オリジナル)

Deep reinforcement learning (DRL) requires the collection of interventional data, which is sometimes expensive and even unethical in the real world, such as in the autonomous driving and the medical field. Offline reinforcement learning promises to alleviate this issue by exploiting the vast amount of observational data available in the real world. However, observational data may mislead the learning agent to undesirable outcomes if the behavior policy that generates the data depends on unobserved random variables (i.e., confounders). In this paper, we propose two deconfounding methods in DRL to address this problem. The methods first calculate the importance degree of different samples based on the causal inference technique, and then adjust the impact of different samples on the loss function by reweighting or resampling the offline dataset to ensure its unbiasedness. These deconfounding methods can be flexibly combined with existing model-free DRL algorithms such as soft actor-critic and deep Q-learning, provided that a weak condition can be satisfied by the loss functions of these algorithms. We prove the effectiveness of our deconfounding methods and validate them experimentally.

arxiv情報

著者 Wenxuan Zhu,Chao Yu,Qiang Zhang
発行日 2023-06-09 17:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク