High-dimensional and universally consistent k-sample tests

要約

k サンプルの検定問題には、データ ポイントの $k$ グループがそれぞれ同じ分布から抽出されているかどうかを判断することが含まれます。
生物医学における k サンプル検定の標準的な方法は、多変量分散分析 (MANOVA) ですが、これは強力で、多くの場合不適切なパラメトリック仮定に依存します。
さらに、独立性検定と k サンプル検定は密接に関連しており、距離相関 (Dcorr) やヒルベルト・シュミット独立基準 (Hsic) などのいくつかの普遍的に一貫した高次元の独立性検定は、確かな理論的および経験的特性を備えています。
この論文では、独立性検定により普遍的に一貫した k サンプル検定が達成され、エネルギーや最大平均乖離 (MMD) などの k サンプル統計が Dcorr と正確に同等であることを証明します。
ノンパラメトリック独立性テストの経験的評価では、ガウス分散シナリオであっても、一般に一般的な MANOVA テストよりも優れたパフォーマンスを発揮することが示されました。
評価には、いくつかの一般的な独立統計が含まれ、包括的な一連のシミュレーションがカバーされました。
さらに、テストアプローチは多方向およびマルチレベルテストを実行するように拡張され、シミュレーション研究および一連の属性を備えた現実世界の fMRI 脳スキャンで実証されました。

要約(オリジナル)

The k-sample testing problem involves determining whether $k$ groups of data points are each drawn from the same distribution. The standard method for k-sample testing in biomedicine is Multivariate analysis of variance (MANOVA), despite that it depends on strong, and often unsuitable, parametric assumptions. Moreover, independence testing and k-sample testing are closely related, and several universally consistent high-dimensional independence tests such as distance correlation (Dcorr) and Hilbert-Schmidt-Independence-Criterion (Hsic) enjoy solid theoretical and empirical properties. In this paper, we prove that independence tests achieve universally consistent k-sample testing and that k-sample statistics such as Energy and Maximum Mean Discrepancy (MMD) are precisely equivalent to Dcorr. An empirical evaluation of nonparametric independence tests showed that they generally perform better than the popular MANOVA test, even in Gaussian distributed scenarios. The evaluation included several popular independence statistics and covered a comprehensive set of simulations. Additionally, the testing approach was extended to perform multiway and multilevel tests, which were demonstrated in a simulated study as well as a real-world fMRI brain scans with a set of attributes.

arxiv情報

著者 Sambit Panda,Cencheng Shen,Ronan Perry,Jelle Zorn,Antoine Lutz,Carey E. Priebe,Joshua T. Vogelstein
発行日 2023-10-11 17:14:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク