Post-Episodic Reinforcement Learning Inference

要約

エピソード強化学習 (RL) アルゴリズムから収集されたデータを使用して推定と推論を検討します。
つまり、各期間(別名エピソード)で、単一の治療ユニットと連続的に複数回相互作用する適応実験アルゴリズムです。
私たちの目標は、データ収集後に反事実に基づく適応政策を評価し、単位の割り当てに使用できる動的な治療効果などの構造パラメータを推定できるようにすることです(たとえば、最初の期間のアクションが最終結果にどのような影響を及ぼしたのかなど)。
このような関心のあるパラメータはモーメント方程式の解としてフレーム化できますが、母集団損失関数の最小化要素としてフレーム化することはできないため、静的データの場合は $Z$ 推定アプローチが必要になります。
ただし、適応型データ収集の場合、そのような推定量は漸近的に正規にはなりません。
我々は、典型的なエピソード RL アルゴリズムが呼び出す非定常ポリシーから生じる、エピソードごとに変動する推定分散を安定させるために、慎重に設計された適応重みを使用して再重み付けされた $Z$ 推定アプローチを提案します。
ターゲット パラメーターの再重み付けされた Z 推定量の一貫性と漸近正規性を復元するための適切な重み付けスキームを特定します。これにより、対象のターゲット パラメーターの仮説検定と均一な信頼領域の構築が可能になります。
主な用途には、動的治療効果推定や動的オフポリシー評価が含まれます。

要約(オリジナル)

We consider estimation and inference with data collected from episodic reinforcement learning (RL) algorithms; i.e. adaptive experimentation algorithms that at each period (aka episode) interact multiple times in a sequential manner with a single treated unit. Our goal is to be able to evaluate counterfactual adaptive policies after data collection and to estimate structural parameters such as dynamic treatment effects, which can be used for credit assignment (e.g. what was the effect of the first period action on the final outcome). Such parameters of interest can be framed as solutions to moment equations, but not minimizers of a population loss function, leading to $Z$-estimation approaches in the case of static data. However, such estimators fail to be asymptotically normal in the case of adaptive data collection. We propose a re-weighted $Z$-estimation approach with carefully designed adaptive weights to stabilize the episode-varying estimation variance, which results from the nonstationary policy that typical episodic RL algorithms invoke. We identify proper weighting schemes to restore the consistency and asymptotic normality of the re-weighted Z-estimators for target parameters, which allows for hypothesis testing and constructing uniform confidence regions for target parameters of interest. Primary applications include dynamic treatment effect estimation and dynamic off-policy evaluation.

arxiv情報

著者 Vasilis Syrgkanis,Ruohan Zhan
発行日 2023-07-28 10:33:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, stat.ML パーマリンク