Asymptotic Inference for Multi-Stage Stationary Treatment Policy with Variable Selection

要約

動的な治療計画または方針は、個々の特徴に合わせて調整された複数の段階にわたる一連の決定機能です。
実際の治療方針の重要なクラスの 1 つである多段階定常治療方針は、複数の段階にわたって同じ決定関数を使用して治療割り当て確率を規定します。この場合、決定は、時間発展する変数 (例: ルーチン) から構成される同じ一連の特徴に基づいています。
収集された疾患バイオマーカー)。
動的治療方針に関連する価値関数の有効な推論の構築に関する文献は数多くありますが、特に高次元の特徴変数が存在する場合の方針自体に焦点を当てた研究はほとんどありません。
私たちはこの仕事のギャップを埋めることを目指しています。
具体的には、まず、値関数の拡張逆確率重み付き推定器を使用して漸近効率を高める多段階定常治療方針を推定し、さらにペナルティを適用して重要な特徴変数を選択します。
次に、有効な推論のためのポリシー パラメーター推定器の 1 段階の改善を構築します。
理論的には、たとえ迷惑パラメータが遅い収束速度で推定され、特徴変数の次元がサンプルサイズとともに増加したとしても、改良された推定量は漸近的に正規であることを示します。
私たちの数値研究は、提案された方法が最適に近い値関数を使用して疎なポリシーを推定し、ポリシーパラメータの有効な推論を実行することを示しています。

要約(オリジナル)

Dynamic treatment regimes or policies are a sequence of decision functions over multiple stages that are tailored to individual features. One important class of treatment policies in practice, namely multi-stage stationary treatment policies, prescribes treatment assignment probabilities using the same decision function across stages, where the decision is based on the same set of features consisting of time-evolving variables (e.g., routinely collected disease biomarkers). Although there has been extensive literature on constructing valid inference for the value function associated with dynamic treatment policies, little work has focused on the policies themselves, especially in the presence of high-dimensional feature variables. We aim to fill the gap in this work. Specifically, we first estimate the multi-stage stationary treatment policy using an augmented inverse probability weighted estimator for the value function to increase asymptotic efficiency, and further apply a penalty to select important feature variables. We then construct one-step improvements of the policy parameter estimators for valid inference. Theoretically, we show that the improved estimators are asymptotically normal, even if nuisance parameters are estimated at a slow convergence rate and the dimension of the feature variables increases with the sample size. Our numerical studies demonstrate that the proposed method estimates a sparse policy with a near-optimal value function and conducts valid inference for the policy parameters.

arxiv情報

著者 Daiqi Gao,Yufeng Liu,Donglin Zeng
発行日 2025-01-08 16:02:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク