要約
バンディット設定における決定変数と報酬変数の間の関係についての因果関係の知識は、最適な決定の学習を加速できます。
現在の研究では、因果関係グラフが既知であると想定していることが多く、必ずしも事前に利用できるとは限りません。
この課題を動機として、私たちは、基礎となる因果グラフが不明であり、潜在的な交絡因子が含まれている可能性があるシナリオにおける因果バンディット問題に焦点を当てます。
報酬ノードの親への介入は潜在的な交絡因子が存在しない場合に最適ですが、一般的には必ずしもそうとは限りません。
代わりに、おそらく最適なアーム/介入のセットを考慮する必要があります。それぞれが報酬ノードの祖先の特別なサブセットであり、報酬ノードの親を超えた因果関係の発見が不可欠になります。
後悔を最小限に抑えるためには、完全な因果構造を発見する必要はないことがわかります。
しかし、因果関係グラフの必要かつ十分なコンポーネントを提供する既存の研究はありません。
私たちは、おそらく最適なアームがすべて正確に識別されることを保証するために、検出または学習する必要がある、必要かつ十分な潜在的な交絡因子のセットを正式に特徴付けます。
また、限られた数のサンプルで因果グラフを学習するためのランダム化アルゴリズムを提案し、任意の信頼レベルに対するサンプルの複雑さの保証を提供します。
因果的バンディットの設定では、2 段階のアプローチを提案します。
最初の段階では、おそらく最適なアームのセットを構築するために、潜在交絡因子の必要かつ十分なサブセットとともに、報酬の先祖に関する誘導サブグラフを学習します。
このフェーズ中に発生するリグレスは、因果関係グラフ内のノードの数に関して多項式にスケールされます。
第 2 フェーズには、UCB アルゴリズムなどの標準的なバンディット アルゴリズムの適用が含まれます。
また、ラウンド数がサブリニアである 2 フェーズ アプローチに限定された後悔も確立します。
要約(オリジナル)
Causal knowledge about the relationships among decision variables and a reward variable in a bandit setting can accelerate the learning of an optimal decision. Current works often assume the causal graph is known, which may not always be available a priori. Motivated by this challenge, we focus on the causal bandit problem in scenarios where the underlying causal graph is unknown and may include latent confounders. While intervention on the parents of the reward node is optimal in the absence of latent confounders, this is not necessarily the case in general. Instead, one must consider a set of possibly optimal arms/interventions, each being a special subset of the ancestors of the reward node, making causal discovery beyond the parents of the reward node essential. For regret minimization, we identify that discovering the full causal structure is unnecessary; however, no existing work provides the necessary and sufficient components of the causal graph. We formally characterize the set of necessary and sufficient latent confounders one needs to detect or learn to ensure that all possibly optimal arms are identified correctly. We also propose a randomized algorithm for learning the causal graph with a limited number of samples, providing a sample complexity guarantee for any desired confidence level. In the causal bandit setup, we propose a two-stage approach. In the first stage, we learn the induced subgraph on ancestors of the reward, along with a necessary and sufficient subset of latent confounders, to construct the set of possibly optimal arms. The regret incurred during this phase scales polynomially with respect to the number of nodes in the causal graph. The second phase involves the application of a standard bandit algorithm, such as the UCB algorithm. We also establish a regret bound for our two-phase approach, which is sublinear in the number of rounds.
arxiv情報
著者 | Muhammad Qasim Elahi,Mahsa Ghasemi,Murat Kocaoglu |
発行日 | 2024-11-06 16:59:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google