要約
解釈可能な政策学習は、観察された行動から分かりやすい意思決定政策を推定しようとするものであるが、既存のモデルでは、正確さと解釈可能性のトレードオフを強いられるため、不十分である。このトレードオフは、人間の意思決定プロセスのデータドリブンな解釈を制限する。例えば、医療上の意思決定に偏りや最適でない実践がないか監査するためには、複雑な行動を簡潔に記述する意思決定プロセスのモデルが必要である。基本的に、既存のアプローチはこのトレードオフに悩まされている。なぜなら、彼らは根本的な意思決定プロセスを普遍的なポリシーとして表現しているからである。そこで我々は、複雑な意思決定過程をモデル化する問題を、複雑な意思決定方針が文脈に特化した方針で構成されるマルチタスク学習問題として再構成するCPR(Contextualized Policy Recovery)を提案する。CPRは、各コンテキスト固有ポリシーを線形観測-行動写像としてモデル化し、コンテキストが新しい観測で更新されると、新しい決定モデル$textit{オンデマンド}$を生成する。CPRは、完全なオフライン及び部分的に観測可能な意思決定環境に適合し、任意のリカレントブラックボックスモデル又は解釈可能な意思決定モデルを組み込むように調整することができる。我々は、シミュレートされたデータと実データを用いた研究を通じてCPRを評価し、集中治療室における抗生物質処方の予測(従来のSOTAに対して$+22%AUROC)とアルツハイマー病患者のMRI処方の予測(従来のSOTAに対して$+7.7%AUROC)という典型的なタスクにおいて、最先端の性能を達成した。この予測性能の向上により、CPRは、政策学習のための解釈可能な手法とブラックボックス手法との間の精度ギャップを縮め、文脈に特化した意思決定モデルの高解像度の探索と分析を可能にする。
要約(オリジナル)
Interpretable policy learning seeks to estimate intelligible decision policies from observed actions; however, existing models fall short by forcing a tradeoff between accuracy and interpretability. This tradeoff limits data-driven interpretations of human decision-making process. e.g. to audit medical decisions for biases and suboptimal practices, we require models of decision processes which provide concise descriptions of complex behaviors. Fundamentally, existing approaches are burdened by this tradeoff because they represent the underlying decision process as a universal policy, when in fact human decisions are dynamic and can change drastically with contextual information. Thus, we propose Contextualized Policy Recovery (CPR), which re-frames the problem of modeling complex decision processes as a multi-task learning problem in which complex decision policies are comprised of context-specific policies. CPR models each context-specific policy as a linear observation-to-action mapping, and generates new decision models $\textit{on-demand}$ as contexts are updated with new observations. CPR is compatible with fully offline and partially observable decision environments, and can be tailored to incorporate any recurrent black-box model or interpretable decision model. We assess CPR through studies on simulated and real data, achieving state-of-the-art performance on the canonical tasks of predicting antibiotic prescription in intensive care units ($+22\%$ AUROC vs. previous SOTA) and predicting MRI prescription for Alzheimer’s patients ($+7.7\%$ AUROC vs. previous SOTA). With this improvement in predictive performance, CPR closes the accuracy gap between interpretable and black-box methods for policy learning, allowing high-resolution exploration and analysis of context-specific decision models.
arxiv情報
著者 | Jannik Deuschel,Caleb N. Ellington,Benjamin J. Lengerich,Yingtao Luo,Pascal Friederich,Eric P. Xing |
発行日 | 2023-12-01 17:00:04+00:00 |
arxivサイト | arxiv_id(pdf) |