Optimality in Mean Estimation: Beyond Worst-Case, Beyond Sub-Gaussian, and Beyond $1+α$ Moments

要約

貴重なデータから抽出できるものの限界を理解するという目標により、平均推定などの基本的な統計問題のアルゴリズムの理解を向上させることへの関心が高まっています。
$\mathbb{R}$ における平均推定の最先端の結果は、1) [LV22] による最適なサブガウス平均推定器であり、分散は有限だが未知のすべての分布に対して厳密なサブガウス定数を使用します。2
) [BCL13] による平均中央値アルゴリズムと [DLLO16] による下限アルゴリズムの分析。 $\alpha \in に対して $1+\alpha$ モーメントのみが存在する分布の big-O 最適誤差を特徴付けます。
(0,1)$。
ただし、両方の結果が最適になるのは最悪の場合のみです。
平均推定問題の詳細な研究を開始します。アルゴリズムは、入力分布の有用な特徴を活用して、そのような特徴の明示的な知識がなくても、サブガウス率を打ち負かすことができますか?
この質問は、「限られた体制ではイエスだが、一般的にはノー」という予想外の微妙な答えで解決されます。
有限平均を持つ分布 $p$ に対して、平均が $p$ から十分に分離されているが、$p$ と $q$ は高い確率で区別できない分布 $q$ を構築します。
さらに $p$ のモーメントを定数まで保存します。
主な結果は、どのような分布でも、[LV22] の最悪の場合の結果と一致するサブガウス誤差率よりも良い値を漸近的に達成できる合理的な推定法は存在しないということです。
より一般的には、アルゴリズムのきめ細かい最適性を分析するための新しい定義フレームワークを導入します。これは「近傍最適性」と呼ばれ、達成不可能なほど強力な「インスタンスの最適性」と自明に弱い「許容性」の定義の間を補間します。
新しいフレームワークを適用すると、平均値の中央値が一定の係数までは近傍最適であることがわかります。
定数因子スラックなしで近傍最適推定量を見つけることが可能です。

要約(オリジナル)

There is growing interest in improving our algorithmic understanding of fundamental statistical problems such as mean estimation, driven by the goal of understanding the limits of what we can extract from valuable data. The state of the art results for mean estimation in $\mathbb{R}$ are 1) the optimal sub-Gaussian mean estimator by [LV22], with the tight sub-Gaussian constant for all distributions with finite but unknown variance, and 2) the analysis of the median-of-means algorithm by [BCL13] and a lower bound by [DLLO16], characterizing the big-O optimal errors for distributions for which only a $1+\alpha$ moment exists for $\alpha \in (0,1)$. Both results, however, are optimal only in the worst case. We initiate the fine-grained study of the mean estimation problem: Can algorithms leverage useful features of the input distribution to beat the sub-Gaussian rate, without explicit knowledge of such features? We resolve this question with an unexpectedly nuanced answer: ‘Yes in limited regimes, but in general no’. For any distribution $p$ with a finite mean, we construct a distribution $q$ whose mean is well-separated from $p$’s, yet $p$ and $q$ are not distinguishable with high probability, and $q$ further preserves $p$’s moments up to constants. The main consequence is that no reasonable estimator can asymptotically achieve better than the sub-Gaussian error rate for any distribution, matching the worst-case result of [LV22]. More generally, we introduce a new definitional framework to analyze the fine-grained optimality of algorithms, which we call ‘neighborhood optimality’, interpolating between the unattainably strong ‘instance optimality’ and the trivially weak ‘admissibility’ definitions. Applying the new framework, we show that median-of-means is neighborhood optimal, up to constant factors. It is open to find a neighborhood-optimal estimator without constant factor slackness.

arxiv情報

著者 Trung Dang,Jasper C. H. Lee,Maoyuan Song,Paul Valiant
発行日 2023-11-21 18:50:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.ST, stat.ML, stat.TH パーマリンク