MMD Aggregated Two-Sample Test

要約

最大平均差異 (MMD) に基づいた 2 つの新しいノンパラメトリック 2 サンプル カーネル テストを提案します。
まず、固定カーネルの場合、テストのしきい値を決定するための 2 つの一般的な数値手順である順列またはワイルド ブートストラップのいずれかを使用して MMD テストを構築します。
このテストがタイプ I エラーの確率を非漸近的に制御することを証明します。
したがって、正しいテスト レベルを漸近的に保証するだけだった以前の MMD テストとは異なり、適切にキャリブレーションされたままであるため、サンプル サイズが小さい設定でも確実に使用できます。
密度の差がソボレフ ボール内にある場合、ソボレフ ボールの滑らかさパラメーターに応じて、特定のカーネルを使用した MMD テストのミニマックス最適性が証明されます。
実際には、このパラメータは不明であるため、この特定のカーネルで最適な MMD テストを使用することはできません。
この問題を解決するために、平滑度パラメーターに適応する MMDAgg と呼ばれる集約テストを構築します。
カーネル選択のための保持データ (テスト能力の損失につながる) や中央値ヒューリスティックなどの任意のカーネル選択を必要とせず、使用されるカーネルのコレクション全体にわたってテスト能力が最大化されます。
MMDAgg が引き続きレベルを非漸近的に制御し、反復対数項まで、ソボレフ ボールを超えるミニマックス レートを達成することを証明します。
当社の保証は特定の種類のカーネルに限定されず、一次元変換不変特性カーネルのあらゆる製品に適用されます。
帯域幅の適応的なコレクションを使用して、ユーザーフレンドリーなパラメータ不要の MMDAgg 実装を提供します。
MMDAgg は、ソボレフの滑らかさの仮定を満たす合成データに対して、代替の最先端の MMD ベースの 2 サンプル テストよりも大幅に優れたパフォーマンスを発揮し、実世界の画像データに対しては、MMDAgg が、
ニューラルネットワークなどのモデルの。

要約(オリジナル)

We propose two novel nonparametric two-sample kernel tests based on the Maximum Mean Discrepancy (MMD). First, for a fixed kernel, we construct an MMD test using either permutations or a wild bootstrap, two popular numerical procedures to determine the test threshold. We prove that this test controls the probability of type I error non-asymptotically. Hence, it can be used reliably even in settings with small sample sizes as it remains well-calibrated, which differs from previous MMD tests which only guarantee correct test level asymptotically. When the difference in densities lies in a Sobolev ball, we prove minimax optimality of our MMD test with a specific kernel depending on the smoothness parameter of the Sobolev ball. In practice, this parameter is unknown and, hence, the optimal MMD test with this particular kernel cannot be used. To overcome this issue, we construct an aggregated test, called MMDAgg, which is adaptive to the smoothness parameter. The test power is maximised over the collection of kernels used, without requiring held-out data for kernel selection (which results in a loss of test power), or arbitrary kernel choices such as the median heuristic. We prove that MMDAgg still controls the level non-asymptotically, and achieves the minimax rate over Sobolev balls, up to an iterated logarithmic term. Our guarantees are not restricted to a specific type of kernel, but hold for any product of one-dimensional translation invariant characteristic kernels. We provide a user-friendly parameter-free implementation of MMDAgg using an adaptive collection of bandwidths. We demonstrate that MMDAgg significantly outperforms alternative state-of-the-art MMD-based two-sample tests on synthetic data satisfying the Sobolev smoothness assumption, and that, on real-world image data, MMDAgg closely matches the power of tests leveraging the use of models such as neural networks.

arxiv情報

著者 Antonin Schrab,Ilmun Kim,Mélisande Albert,Béatrice Laurent,Benjamin Guedj,Arthur Gretton
発行日 2023-05-29 13:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ME, stat.ML, stat.TH パーマリンク