要約
普遍定数 $C>0$ が存在し、すべての $d \in \mathbb N$、$\mathbb R^d$ 上のすべての中心サブガウス分布 $\mathcal D$、およびすべての偶数 $p \ が存在することを証明します。
\mathbb N$ では、$d$ 変量多項式 $(Cp)^{p/2} \cdot \|v\|_{2}^p – \mathbb E_{X \sim \mathcal D} \langle
v,X\rangle^p$ は二乗多項式の和です。
これにより、すべてのサブガウス分布が \emph{SoS で証明可能なサブガウス分布} であることが確立されます。これは、さまざまな高次元の統計タスクに対する効率的な学習アルゴリズムを生み出す条件です。
直接の帰結として、任意のサブガウス分布からサンプルが与えられた場合、次のタスクに対して最適に近い保証を備えた計算効率の高いアルゴリズムが得られます: ロバスト平均推定、リスト復号可能な平均推定、平均分離混合モデルのクラスタリング、ロバストな共分散を意識
平均推定、ロバストな共分散推定、ロバストな線形回帰。
私たちの証明では、Talagrand の一般的な連鎖/メジャー化測度定理を本質的に利用しています。
要約(オリジナル)
We prove that there is a universal constant $C>0$ so that for every $d \in \mathbb N$, every centered subgaussian distribution $\mathcal D$ on $\mathbb R^d$, and every even $p \in \mathbb N$, the $d$-variate polynomial $(Cp)^{p/2} \cdot \|v\|_{2}^p – \mathbb E_{X \sim \mathcal D} \langle v,X\rangle^p$ is a sum of square polynomials. This establishes that every subgaussian distribution is \emph{SoS-certifiably subgaussian} — a condition that yields efficient learning algorithms for a wide variety of high-dimensional statistical tasks. As a direct corollary, we obtain computationally efficient algorithms with near-optimal guarantees for the following tasks, when given samples from an arbitrary subgaussian distribution: robust mean estimation, list-decodable mean estimation, clustering mean-separated mixture models, robust covariance-aware mean estimation, robust covariance estimation, and robust linear regression. Our proof makes essential use of Talagrand’s generic chaining/majorizing measures theorem.
arxiv情報
著者 | Ilias Diakonikolas,Samuel B. Hopkins,Ankit Pensia,Stefan Tiegel |
発行日 | 2024-10-28 16:36:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google