Linear Causal Bandits: Unknown Graph and Soft Interventions

要約

因果バンディット アルゴリズムの設計は、(i) 基礎となる因果グラフに関する情報の範囲、および (ii) 介入統計モデルに関する情報の範囲という 2 つの中心的な仮定カテゴリに依存します。
最近では、どちらのカテゴリーについても仮定をなくすことが大幅に進んでいます。
これらには、既知のグラフを仮定するが介入分布は未知であること、および未知のグラフを仮定するが、確率性と祖先依存性を除去する制限的なハード/$\operatorname{do}$ 介入にアクセスする逆の設定が含まれます。
それにもかかわらず、その一般的な形式、つまり未知のグラフや未知の確率的介入モデルの問題は未解決のままです。
この論文はこの問題に対処し、$N$ ノード、最大入次数 $d$ および最大因果経路長 $L$ を含むグラフにおいて、$T$ 相互作用後のリグレス上限スケールが $\tilde{\ のように丸められることを確立します。
mathcal{O}}((cd)^{L-\frac{1}{2}}\sqrt{T} + d + RN)$ ここで、$c>1$ は定数、$R$ は次の尺度です。
介入力。
普遍的なミニマックスの下限も確立されており、$\Omega(d^{L-\frac{3}{2}}\sqrt{T})$ としてスケールされます。
重要なのは、グラフ サイズ $N$ は、$T$ が大きくなるにつれて後悔に対する影響を小さくすることです。
これらの境界は、$T$ での一致動作、$L$ への指数依存性、および $d$ への多項式依存性 (ギャップ $d\ $ あり) を持ちます。
アルゴリズムの側面では、この論文は計算効率の高い CB アルゴリズムを設計する新しい方法を提示し、ソフト介入を使用する既存の CB アルゴリズムが直面する課題に対処します。

要約(オリジナル)

Designing causal bandit algorithms depends on two central categories of assumptions: (i) the extent of information about the underlying causal graphs and (ii) the extent of information about interventional statistical models. There have been extensive recent advances in dispensing with assumptions on either category. These include assuming known graphs but unknown interventional distributions, and the converse setting of assuming unknown graphs but access to restrictive hard/$\operatorname{do}$ interventions, which removes the stochasticity and ancestral dependencies. Nevertheless, the problem in its general form, i.e., unknown graph and unknown stochastic intervention models, remains open. This paper addresses this problem and establishes that in a graph with $N$ nodes, maximum in-degree $d$ and maximum causal path length $L$, after $T$ interaction rounds the regret upper bound scales as $\tilde{\mathcal{O}}((cd)^{L-\frac{1}{2}}\sqrt{T} + d + RN)$ where $c>1$ is a constant and $R$ is a measure of intervention power. A universal minimax lower bound is also established, which scales as $\Omega(d^{L-\frac{3}{2}}\sqrt{T})$. Importantly, the graph size $N$ has a diminishing effect on the regret as $T$ grows. These bounds have matching behavior in $T$, exponential dependence on $L$, and polynomial dependence on $d$ (with the gap $d\ $). On the algorithmic aspect, the paper presents a novel way of designing a computationally efficient CB algorithm, addressing a challenge that the existing CB algorithms using soft interventions face.

arxiv情報

著者 Zirui Yan,Ali Tajer
発行日 2024-11-04 18:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク