Optimal Policy Learning with Observational Data in Multi-Action Scenarios: Estimation, Risk Preference, and Potential Failures

要約

この論文では、観測データを使用した最適政策学習 (OPL)、つまり、有限セットの意思決定オプションが利用可能なマルチアクション (またはマルチアーム) 設定におけるデータ駆動型の最適な意思決定について扱います。
これは 3 つの部分で構成されており、それぞれ、見積もり、リスク選好、および潜在的な失敗について説明します。
最初の部分では、この分析のコンテキスト内で報酬 (または価値) 関数と最適なポリシーを推定するための主要なアプローチについて簡単に説明します。
ここでは、オフラインの最適なポリシー学習推定器に関連する識別の仮定と統計的特性について説明します。
後半では、意思決定リスクの分析について詳しく説明します。
この分析により、最適な選択はリスクに対する意思決定者の態度、特に報酬の条件付き平均と条件付き分散の間のトレードオフの観点から影響を受ける可能性があることが明らかになりました。
ここで私は、提案されたモデルを実際のデータに適用し、多値治療による政策の平均後悔がリスクに対する意思決定者の態度に依存することを示します。
論文の 3 番目の部分では、意思決定が行き詰まる可能性がある条件を強調することで、最適なデータ主導型意思決定の限界について説明します。
この側面は、最適な選択を特定するために不可欠な 2 つの基本的な仮定、(i) 重複、および (ii) 混乱のなさに関連しています。
いくつかの結論がこの論文を終了します。

要約(オリジナル)

This paper deals with optimal policy learning (OPL) with observational data, i.e. data-driven optimal decision-making, in multi-action (or multi-arm) settings, where a finite set of decision options is available. It is organized in three parts, where I discuss respectively: estimation, risk preference, and potential failures. The first part provides a brief review of the key approaches to estimating the reward (or value) function and optimal policy within this context of analysis. Here, I delineate the identification assumptions and statistical properties related to offline optimal policy learning estimators. In the second part, I delve into the analysis of decision risk. This analysis reveals that the optimal choice can be influenced by the decision maker’s attitude towards risks, specifically in terms of the trade-off between reward conditional mean and conditional variance. Here, I present an application of the proposed model to real data, illustrating that the average regret of a policy with multi-valued treatment is contingent on the decision-maker’s attitude towards risk. The third part of the paper discusses the limitations of optimal data-driven decision-making by highlighting conditions under which decision-making can falter. This aspect is linked to the failure of the two fundamental assumptions essential for identifying the optimal choice: (i) overlapping, and (ii) unconfoundedness. Some conclusions end the paper.

arxiv情報

著者 Giovanni Cerulli
発行日 2024-03-29 15:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク