要約
意思決定者は、多くの場合、治療できるエージェントの数に対する容量の制約の下で治療割り当てポリシーを学ぶことを目指しています。
エージェントがそのようなポリシーに戦略的に対応できる場合、競争が発生し、最適なポリシーの推定を複雑にします。
この論文では、そのような干渉の存在下で容量制約のある治療の割り当てを研究します。
意思決定者が各タイムステップで治療を割り当てる動的モデルを検討し、以前の治療割り当てポリシーに近視で最適に応答する不均一なエージェントを検討します。
エージェントの数が大きいが有限である場合、特定のポリシーの下で治療を受けるためのしきい値がポリシーの平均フィールド平衡しきい値に収束することを示します。
この結果に基づいて、ポリシー勾配の一貫した推定器を開発します。
1988年の国家教育縦断的研究のデータを使用した半合成実験では、この推定器を戦略的行動の存在下で容量制約のポリシーを学習するために使用できることを実証します。
要約(オリジナル)
Decision makers often aim to learn a treatment assignment policy under a capacity constraint on the number of agents that they can treat. When agents can respond strategically to such policies, competition arises, complicating estimation of the optimal policy. In this paper, we study capacity-constrained treatment assignment in the presence of such interference. We consider a dynamic model where the decision maker allocates treatments at each time step and heterogeneous agents myopically best respond to the previous treatment assignment policy. When the number of agents is large but finite, we show that the threshold for receiving treatment under a given policy converges to the policy’s mean-field equilibrium threshold. Based on this result, we develop a consistent estimator for the policy gradient. In a semi-synthetic experiment with data from the National Education Longitudinal Study of 1988, we demonstrate that this estimator can be used for learning capacity-constrained policies in the presence of strategic behavior.
arxiv情報
著者 | Roshni Sahoo,Stefan Wager |
発行日 | 2025-03-28 14:55:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google