Leveraging Factored Action Spaces for Efficient Offline Reinforcement Learning in Healthcare

要約

タイトル:ヘルスケアにおける効率的なオフライン強化学習のためのファクタ化されたアクション空間の活用

要約:

– 強化学習の多くのアプリケーションには組み合わせ型のアクション空間があります。
– 標準的な強化学習アプローチは、この固有の分解構造を無視するため、まれに観察されるサブアクションの組み合わせに関する意味のある推論をすることができなくなります。
– この問題は、データが限られているオフライン設定において特に深刻です。
– 本研究では、ファクタ化されたアクション空間によって誘導される形式の線形Q関数分解を提案しています。
– 我々はアプローチの理論的な性質を研究し、Q関数を近似する際にゼロバイアスを保証するシナリオを特定しています。
– 理論的な保証とは異なる状況でも、このアプローチはベターなサンプル効率を実現するために、方策の最適性を犠牲にすることなく有用であることを示しています。
– 医療に関連するシミュレータや実データを用いたオフライン強化学習の複数の問題に対して、ファクタ化されたアクション空間を価値ベースの強化学習に組み込むことで、性能の向上した方策を実現できることを示しています。
– このアプローチは、観察データセットに対して強化学習を適用する際に、未探索の状態-アクション空間の領域でより正確な推論を行うのに役立ちます。

要約(オリジナル)

Many reinforcement learning (RL) applications have combinatorial action spaces, where each action is a composition of sub-actions. A standard RL approach ignores this inherent factorization structure, resulting in a potential failure to make meaningful inferences about rarely observed sub-action combinations; this is particularly problematic for offline settings, where data may be limited. In this work, we propose a form of linear Q-function decomposition induced by factored action spaces. We study the theoretical properties of our approach, identifying scenarios where it is guaranteed to lead to zero bias when used to approximate the Q-function. Outside the regimes with theoretical guarantees, we show that our approach can still be useful because it leads to better sample efficiency without necessarily sacrificing policy optimality, allowing us to achieve a better bias-variance trade-off. Across several offline RL problems using simulators and real-world datasets motivated by healthcare, we demonstrate that incorporating factored action spaces into value-based RL can result in better-performing policies. Our approach can help an agent make more accurate inferences within underexplored regions of the state-action space when applying RL to observational datasets.

arxiv情報

著者 Shengpu Tang,Maggie Makar,Michael W. Sjoding,Finale Doshi-Velez,Jenna Wiens
発行日 2023-05-02 19:13:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク