Efficient Certificates of Anti-Concentration Beyond Gaussians

要約

等方的な位置にある高次元の点 $X=\{x_1, x_2,\ldots, x_n\} \subset R^d$ の集合は、あらゆる方向 $v$ に対して $\delta$-anti 集中であると言われます。
$|\langle x_i,v \rangle |\leq \delta$ を満たす $X$ 内の点の割合は最大でも $O(\delta)$ です。
リスト解読可能な学習とクラスタリングへの応用を動機とした最近の研究では、点の集合 $X$ がガウス分布からのサンプルに対応する場合の、平均的なケースにおける反集中の効率的な証明書を構築する問題が検討されています。
彼らの証明書は、リスト解読可能な学習に関するアルゴリズムの堅牢な統計と、任意のガウス混合の堅牢な学習可能性を設定するその後のいくつかの研究で重要な役割を果たしましたが、依然として回転不変分布に限定されています。
この研究は、抗集中のための新しい (そしておそらく最も自然な) 処方を提示します。
この定式化を使用して、反集中の有界積分布や $L_p$ ボール (およびその
アフィン変換)。
その結果、私たちの方法は、リストデコード可能な学習やクラスタリングなどのアルゴリズムの堅牢な統計の結果をそのような分布にアップグレードおよび拡張します。
私たちのアプローチは、意図されたアプリケーションとは独立して、反集中のための標準的な整数プログラムを構築し、その二乗和緩和を分析します。
私たちは双対性に依存し、ある方向に小さな値をとる入力点の大きなサブセットに対する疑似期待を分析します。
私たちの分析では、多項式の再重み付けの方法を使用して、分析的に密な方向または疎な方向のみを分析するように問題を軽減します。

要約(オリジナル)

A set of high dimensional points $X=\{x_1, x_2,\ldots, x_n\} \subset R^d$ in isotropic position is said to be $\delta$-anti concentrated if for every direction $v$, the fraction of points in $X$ satisfying $|\langle x_i,v \rangle |\leq \delta$ is at most $O(\delta)$. Motivated by applications to list-decodable learning and clustering, recent works have considered the problem of constructing efficient certificates of anti-concentration in the average case, when the set of points $X$ corresponds to samples from a Gaussian distribution. Their certificates played a crucial role in several subsequent works in algorithmic robust statistics on list-decodable learning and settling the robust learnability of arbitrary Gaussian mixtures, yet remain limited to rotationally invariant distributions. This work presents a new (and arguably the most natural) formulation for anti-concentration. Using this formulation, we give quasi-polynomial time verifiable sum-of-squares certificates of anti-concentration that hold for a wide class of non-Gaussian distributions including anti-concentrated bounded product distributions and uniform distributions over $L_p$ balls (and their affine transformations). Consequently, our method upgrades and extends results in algorithmic robust statistics e.g., list-decodable learning and clustering, to such distributions. Our approach constructs a canonical integer program for anti-concentration and analysis a sum-of-squares relaxation of it, independent of the intended application. We rely on duality and analyze a pseudo-expectation on large subsets of the input points that take a small value in some direction. Our analysis uses the method of polynomial reweightings to reduce the problem to analyzing only analytically dense or sparse directions.

arxiv情報

著者 Ainesh Bakshi,Pravesh Kothari,Goutham Rajendran,Madhur Tulsiani,Aravindan Vijayaraghavan
発行日 2024-10-28 16:13:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ML パーマリンク