Testing Support Size More Efficiently Than Learning Histograms

要約

未知の確率分布 $p$ に関する 2 つの問題を考えてみましょう。 1. $p$ が $n$ 要素でサポートされているかどうかをテストするには、$p$ からのサンプルがいくつ必要ですか?
具体的には、$p$ からのサンプルが与えられた場合、それが最大 $n$ 要素でサポートされるか、または $n$ 要素でサポートされるのが (合計変動距離で) ‘$\epsilon$-far’ であるかどうかを判断します。
2. $p$ からの $m$ サンプルが与えられた場合、生成できるサポート サイズの最大の下限はいくらですか?
問題 (1) の最もよく知られている上限では、分布 $p$ のヒストグラムを学習するための一般的なアルゴリズムが使用されており、これには $\Theta(\tfrac{n}{\epsilon^2 \log n})$ サンプルが必要です。
$O(\tfrac{n}{\epsilon \log n} \log(1/\epsilon))$ サンプルのみを使用し、最もよく知られている下限とほぼ一致するヒストグラムを学習するよりもテストを効率的に実行できることを示します。
$\Omega(\tfrac{n}{\epsilon \log n})$ の。
このアルゴリズムは、問題 (2) に対するより良い解決策も提供し、以前の研究から得られたものよりもサポート サイズの下限を大きくします。
この証明は、適切な近似となるように設計された範囲外のチェビシェフ多項式近似の分析に依存しており、この論文は、チェビシェフ多項式法のアクセス可能な自己完結型の解説を目的としています。

要約(オリジナル)

Consider two problems about an unknown probability distribution $p$: 1. How many samples from $p$ are required to test if $p$ is supported on $n$ elements or not? Specifically, given samples from $p$, determine whether it is supported on at most $n$ elements, or it is ‘$\epsilon$-far’ (in total variation distance) from being supported on $n$ elements. 2. Given $m$ samples from $p$, what is the largest lower bound on its support size that we can produce? The best known upper bound for problem (1) uses a general algorithm for learning the histogram of the distribution $p$, which requires $\Theta(\tfrac{n}{\epsilon^2 \log n})$ samples. We show that testing can be done more efficiently than learning the histogram, using only $O(\tfrac{n}{\epsilon \log n} \log(1/\epsilon))$ samples, nearly matching the best known lower bound of $\Omega(\tfrac{n}{\epsilon \log n})$. This algorithm also provides a better solution to problem (2), producing larger lower bounds on support size than what follows from previous work. The proof relies on an analysis of Chebyshev polynomial approximations outside the range where they are designed to be good approximations, and the paper is intended as an accessible self-contained exposition of the Chebyshev polynomial method.

arxiv情報

著者 Renato Ferreira Pinto Jr.,Nathaniel Harms
発行日 2024-10-24 17:05:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG パーマリンク