要約
さまざまな研究における主な研究目標は、観察データセットを使用し、因果関係の改善をもたらすことができる反事実に基づく新しいガイドラインを提供することです。
このプロセスを形式化するために、動的治療計画 (DTR) が広く研究されています。
しかし、最適な DTR を見つけるために利用可能な方法は、特に (a) 観察されていない交絡因子の存在が無視できない場合、および (b)
観測されていない交絡因子は時間とともに変化します(たとえば、前のアクションの影響を受けます)。
このような仮定が破られると、根底にある因果モデルに関するあいまいさに直面することがよくあります。
観察されていない交絡因子のダイナミクスと、データの観察された部分に対するそれらの因果的影響は、観察されたデータからは理解できないため、この曖昧さは避けられません。
私たちの提携病院で移植を受け、移植後新規発症糖尿病 (NODAT) として知られる病状に直面した患者のための優れた治療計画を見つけたケーススタディを動機として、私たちは DTR を曖昧動的治療計画 (ADTR) と呼ばれる新しいクラスに拡張します。
では、治療計画の因果的影響が因果モデルの「クラウド」に基づいて評価されます。
次に、ADTR を曖昧な部分的に観察可能なマーク決定プロセス (APOMDP) に接続し、観察されたデータを使用して最適な治療計画を効率的に学習できる強化学習手法を開発します。
我々は、(弱い) 一貫性や漸近正規性など、これらの学習方法の理論的結果を確立します。
さらに、ケーススタディとシミュレーション実験の両方で、これらの学習方法のパフォーマンスを評価します。
要約(オリジナル)
A main research goal in various studies is to use an observational data set and provide a new set of counterfactual guidelines that can yield causal improvements. Dynamic Treatment Regimes (DTRs) are widely studied to formalize this process. However, available methods in finding optimal DTRs often rely on assumptions that are violated in real-world applications (e.g., medical decision-making or public policy), especially when (a) the existence of unobserved confounders cannot be ignored, and (b) the unobserved confounders are time-varying (e.g., affected by previous actions). When such assumptions are violated, one often faces ambiguity regarding the underlying causal model. This ambiguity is inevitable, since the dynamics of unobserved confounders and their causal impact on the observed part of the data cannot be understood from the observed data. Motivated by a case study of finding superior treatment regimes for patients who underwent transplantation in our partner hospital and faced a medical condition known as New Onset Diabetes After Transplantation (NODAT), we extend DTRs to a new class termed Ambiguous Dynamic Treatment Regimes (ADTRs), in which the causal impact of treatment regimes is evaluated based on a ‘cloud’ of causal models. We then connect ADTRs to Ambiguous Partially Observable Mark Decision Processes (APOMDPs) and develop Reinforcement Learning methods, which enable using the observed data to efficiently learn an optimal treatment regime. We establish theoretical results for these learning methods, including (weak) consistency and asymptotic normality. We further evaluate the performance of these learning methods both in our case study and in simulation experiments.
arxiv情報
| 著者 | Soroush Saghafian |
| 発行日 | 2023-06-05 16:32:55+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google