Learning to Incentivize Information Acquisition: Proper Scoring Rules Meet Principal-Agent Model

要約

私たちは、プリンシパルが自分に代わって情報を収集するためにエージェントを雇う、インセンティブ情報取得問題を研究します。
このような問題は、プリンシパルとエージェントの間のスタッケルバーグ ゲームとしてモデル化されます。ここでは、プリンシパルが支払いを指定するスコアリング ルールを発表し、エージェントは自分の利益を最大化する努力レベルを選択して情報を報告します。
このような問題のオンライン設定をプリンシパルの視点から考察します。
我々は、UCB アルゴリズム (Auer et al., 2002) を我々のモデルに適合させ、$T$ 反復後に準線形の $T^{2/3}$-regret を達成する、証明可能なサンプル効率の良いアルゴリズムを設計します。
私たちのアルゴリズムは、プリンシパルの最適な利益のための繊細な推定手順と、目的のエージェントの行動にインセンティブを与える保守的な修正スキームを特徴としています。
さらに、リグリーバウンドの重要な特徴は、環境の状態数に依存しないことです。

要約(オリジナル)

We study the incentivized information acquisition problem, where a principal hires an agent to gather information on her behalf. Such a problem is modeled as a Stackelberg game between the principal and the agent, where the principal announces a scoring rule that specifies the payment, and then the agent then chooses an effort level that maximizes her own profit and reports the information. We study the online setting of such a problem from the principal’s perspective, i.e., designing the optimal scoring rule by repeatedly interacting with the strategic agent. We design a provably sample efficient algorithm that tailors the UCB algorithm (Auer et al., 2002) to our model, which achieves a sublinear $T^{2/3}$-regret after $T$ iterations. Our algorithm features a delicate estimation procedure for the optimal profit of the principal, and a conservative correction scheme that ensures the desired agent’s actions are incentivized. Furthermore, a key feature of our regret bound is that it is independent of the number of states of the environment.

arxiv情報

著者 Siyu Chen,Jibang Wu,Yifan Wu,Zhuoran Yang
発行日 2023-03-15 13:40:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, econ.TH, stat.ML パーマリンク