Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders

要約

オフライン強化学習は、オンライン実験が費用がかかり、危険または非倫理的であり、真のモデルが不明である医学、経済学、電子商取引などの分野で重要です。
ただし、ほとんどの方法では、動作ポリシーのアクション決定に使用されるすべての共変量が観察されることを前提としています。
この仮定、つまり連続的な無視可能性/混乱のなさは観察データには当てはまらない可能性がありますが、治療への選択を説明するデータのほとんどが観察される可能性があり、感度分析の動機付けとなります。
私たちは、感度モデルの下で、逐次外因性の観察されていない交絡因子の存在下でのロバストな政策評価と政策最適化を研究します。
我々は、ロバストなベルマン演算子の閉形式解を使用してロバストな Q 関数の損失最小化問題を導出し、分位数推定にバイアス補正を追加する直交ロバストな近似 Q 反復を提案および解析します。
私たちのアルゴリズムは、当てはめ Q 反復による計算の容易さと、直交化による統計的な改善 (分位点推定誤差への依存の低減) を享受しています。
当社はサンプルの複雑さの限界、洞察を提供し、シミュレーションと敗血症治療の現実世界の長期的な医療データの両方で有効性を示します。
特に、我々の逐次観測されていない交絡因子のモデルは、部分的に観測されたマルコフ決定プロセスではなく、オンラインのマルコフ決定プロセスを生成します。これにより、観測データからの有効なロバスト境界を備えたウォームスタートの楽観的強化学習アルゴリズムがどのように可能になるかを示します。

要約(オリジナル)

Offline reinforcement learning is important in domains such as medicine, economics, and e-commerce where online experimentation is costly, dangerous or unethical, and where the true model is unknown. However, most methods assume all covariates used in the behavior policy’s action decisions are observed. Though this assumption, sequential ignorability/unconfoundedness, likely does not hold in observational data, most of the data that accounts for selection into treatment may be observed, motivating sensitivity analysis. We study robust policy evaluation and policy optimization in the presence of sequentially-exogenous unobserved confounders under a sensitivity model. We propose and analyze orthogonalized robust fitted-Q-iteration that uses closed-form solutions of the robust Bellman operator to derive a loss minimization problem for the robust Q function, and adds a bias-correction to quantile estimation. Our algorithm enjoys the computational ease of fitted-Q-iteration and statistical improvements (reduced dependence on quantile estimation error) from orthogonalization. We provide sample complexity bounds, insights, and show effectiveness both in simulations and on real-world longitudinal healthcare data of treating sepsis. In particular, our model of sequential unobserved confounders yields an online Markov decision process, rather than partially observed Markov decision process: we illustrate how this can enable warm-starting optimistic reinforcement learning algorithms with valid robust bounds from observational data.

arxiv情報

著者 David Bruns-Smith,Angela Zhou
発行日 2023-09-22 15:15:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク