Computing High-dimensional Confidence Sets for Arbitrary Distributions

要約

mathbb{R}^d$上の任意の分布の高密度領域を学習する問題を研究する。目標とする被覆率パラメータ$delta$と、任意の分布$D$へのサンプルアクセスが与えられたとき、$S$が$D$を$delta$被覆するような信頼度集合$Sを出力したい。\left[(y)∕∕right]∕ge∕delta$となり、$S$の体積ができるだけ小さくなる。これは高次元統計における中心的な問題であり、信頼集合の発見、不確実性の定量化、およびサポート推定に応用される。 最も一般的な設定では、この問題は統計的に難解であるため、VC次元が有界の概念クラス$C$からの集合との競合に注意を限定する。アルゴリズムは、任意の分布$D$からのサンプルが与えられたとき、$D$の$δ$カバレッジを達成する集合を多項式時間で出力し、その体積が、必要なカバレッジ$δ$を持つ$C$の最小集合と競合するとき、クラス$C$と競合する。この問題は、$C$が全てのユークリッド球の集合であるという基本的な設定においてさえ、計算上困難である。コアセットに基づく既存のアルゴリズムは、$exp( \tilde{O}( d/ Γlog d))$倍で最良のボールの体積と競合するボールを多項式時間で求める。 我々の主な結果は、その体積が$exp( \tilde{O}(d^{2/3}))$ 因子で、所望のカバレッジを持つ最適なボールと競合する信頼集合を見つけるアルゴリズムである。このアルゴリズムは不適切である(楕円体を出力する)。

要約(オリジナル)

We study the problem of learning a high-density region of an arbitrary distribution over $\mathbb{R}^d$. Given a target coverage parameter $\delta$, and sample access to an arbitrary distribution $D$, we want to output a confidence set $S \subset \mathbb{R}^d$ such that $S$ achieves $\delta$ coverage of $D$, i.e., $\mathbb{P}_{y \sim D} \left[ y \in S \right] \ge \delta$, and the volume of $S$ is as small as possible. This is a central problem in high-dimensional statistics with applications in finding confidence sets, uncertainty quantification, and support estimation. In the most general setting, this problem is statistically intractable, so we restrict our attention to competing with sets from a concept class $C$ with bounded VC-dimension. An algorithm is competitive with class $C$ if, given samples from an arbitrary distribution $D$, it outputs in polynomial time a set that achieves $\delta$ coverage of $D$, and whose volume is competitive with the smallest set in $C$ with the required coverage $\delta$. This problem is computationally challenging even in the basic setting when $C$ is the set of all Euclidean balls. Existing algorithms based on coresets find in polynomial time a ball whose volume is $\exp(\tilde{O}( d/ \log d))$-factor competitive with the volume of the best ball. Our main result is an algorithm that finds a confidence set whose volume is $\exp(\tilde{O}(d^{2/3}))$ factor competitive with the optimal ball having the desired coverage. The algorithm is improper (it outputs an ellipsoid). Combined with our computational intractability result for proper learning balls within an $\exp(\tilde{O}(d^{1-o(1)}))$ approximation factor in volume, our results provide an interesting separation between proper and (improper) learning of confidence sets.

arxiv情報

著者 Chao Gao,Liren Shan,Vaidehi Srinivas,Aravindan Vijayaraghavan
発行日 2025-04-03 16:05:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH パーマリンク