Harnessing Causality in Reinforcement Learning With Bagged Decision Times

要約

袋詰めされた決定時間を持つ問題のクラスに対する強化学習 (RL) を検討します。
バッグには、連続する決定時間の有限シーケンスが含まれます。
遷移ダイナミクスは非マルコフ的であり、バッグ内では非定常です。
さらに、バッグ内のすべてのアクションは、バッグの最後に観察される単一の報酬に共同して影響を与えます。
私たちの目標は、バッグ固有の特典の割引額を最大化するオンライン RL アルゴリズムを構築することです。
バッグ内の非マルコフ遷移を処理するために、専門家が提供する因果有向非巡回グラフ (DAG) を利用します。
DAG に基づいて、観察された履歴の動的なベイジアン十分統計として状態を構築します。その結果、バッグ内およびバッグ全体にわたるマルコフ状態遷移が生じます。
次に、この問題を、周期内の非定常性を許容する周期的マルコフ決定プロセス (MDP) として組み立てます。
固定 MDP 用のベルマン方程式に基づくオンライン RL アルゴリズムは、周期的 MDP を処理するために一般化されています。
提案された RL アルゴリズムを正当化するために、構築された状態が周期的 MDP のすべての状態構築の中で最大の最適値関数を達成することを示します。
さらに、周期的 MDP の Bellman 最適性方程式を証明します。
モバイルヘルス臨床試験から得られた実際のデータを使用して構築された、テストベッドのバリアントで提案された方法を評価します。

要約(オリジナル)

We consider reinforcement learning (RL) for a class of problems with bagged decision times. A bag contains a finite sequence of consecutive decision times. The transition dynamics are non-Markovian and non-stationary within a bag. Further, all actions within a bag jointly impact a single reward, observed at the end of the bag. Our goal is to construct an online RL algorithm to maximize the discounted sum of the bag-specific rewards. To handle non-Markovian transitions within a bag, we utilize an expert-provided causal directed acyclic graph (DAG). Based on the DAG, we construct the states as a dynamical Bayesian sufficient statistic of the observed history, which results in Markovian state transitions within and across bags. We then frame this problem as a periodic Markov decision process (MDP) that allows non-stationarity within a period. An online RL algorithm based on Bellman-equations for stationary MDPs is generalized to handle periodic MDPs. To justify the proposed RL algorithm, we show that our constructed state achieves the maximal optimal value function among all state constructions for a periodic MDP. Further we prove the Bellman optimality equations for periodic MDPs. We evaluate the proposed method on testbed variants, constructed with real data from a mobile health clinical trial.

arxiv情報

著者 Daiqi Gao,Hsin-Yu Lai,Predrag Klasnja,Susan A. Murphy
発行日 2024-10-18 17:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク