Complexity of High-Dimensional Identity Testing with Coordinate Conditional Sampling

要約

私たちは高次元分布の同一性テスト問題を研究します。
入力として明示的な分布 $\mu$、$\varepsilon>0$、および隠れた分布 $\pi$ のサンプリング オラクルへのアクセスが与えられた場合、同一性テストの目標は、2 つの分布 $\ であるかどうかを区別することです。
mu$ と $\pi$ は同一であるか、少なくとも $\varepsilon$ ほど離れています。
非表示のディストリビューション $\pi$ からの完全なサンプルへのアクセスしかない場合、同一性テストには指数関数的に多くのサンプル (次元内) が必要になる可能性があることが知られているため、以前の研究では、さまざまな ‘
条件付きのサンプリングオラクル。
$\mathsf{Coowned\ Oracle}$ と呼ばれる、かなり弱い条件付きサンプリング オラクルを検討し、この新しいモデルにおける同一性テスト問題の計算的および統計的特徴付けを提供します。
エントロピーの近似テンソル化として知られる解析的性質が $n$ 次元の可視分布 $\mu$ に当てはまる場合、$\tilde{O を使用した隠れ分布 $\pi$ に対する効率的な同一性テスト アルゴリズムが存在することを証明します。
}(n/\varepsilon)$ は、$\mathsf{座標\ Oracle}$ にクエリを実行します。
エントロピーの近似テンソル化は、最近の研究で大規模な高次元分布に対して確立されているため、適切な条件です。
また、計算による相転移も証明します。よく研究された $n$ 次元分布のクラス、特に $\{+1,-1\}^n$ 上の疎な反強磁性イジング モデルについて、次のような領域で次のことが示されます。
エントロピーのテンソル化は失敗します。$\mathsf{RP}=\mathsf{NP}$ でない限り、効率的な同一性テスト アルゴリズムはありません。
$\mathsf{Coowned\ Oracle}$ モデルでの同一性テストのサンプル複雑さの一致する $\Omega(n/\varepsilon)$ 統計的下限で結果を補完します。

要約(オリジナル)

We study the identity testing problem for high-dimensional distributions. Given as input an explicit distribution $\mu$, an $\varepsilon>0$, and access to sampling oracle(s) for a hidden distribution $\pi$, the goal in identity testing is to distinguish whether the two distributions $\mu$ and $\pi$ are identical or are at least $\varepsilon$-far apart. When there is only access to full samples from the hidden distribution $\pi$, it is known that exponentially many samples (in the dimension) may be needed for identity testing, and hence previous works have studied identity testing with additional access to various ‘conditional’ sampling oracles. We consider a significantly weaker conditional sampling oracle, which we call the $\mathsf{Coordinate\ Oracle}$, and provide a computational and statistical characterization of the identity testing problem in this new model. We prove that if an analytic property known as approximate tensorization of entropy holds for an $n$-dimensional visible distribution $\mu$, then there is an efficient identity testing algorithm for any hidden distribution $\pi$ using $\tilde{O}(n/\varepsilon)$ queries to the $\mathsf{Coordinate\ Oracle}$. Approximate tensorization of entropy is a pertinent condition as recent works have established it for a large class of high-dimensional distributions. We also prove a computational phase transition: for a well-studied class of $n$-dimensional distributions, specifically sparse antiferromagnetic Ising models over $\{+1,-1\}^n$, we show that in the regime where approximate tensorization of entropy fails, there is no efficient identity testing algorithm unless $\mathsf{RP}=\mathsf{NP}$. We complement our results with a matching $\Omega(n/\varepsilon)$ statistical lower bound for the sample complexity of identity testing in the $\mathsf{Coordinate\ Oracle}$ model.

arxiv情報

著者 Antonio Blanca,Zongchen Chen,Daniel Štefankovič,Eric Vigoda
発行日 2024-08-30 16:03:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.PR, math.ST, stat.TH パーマリンク