要約
最大平均乖離 (MMD) などのノンパラメトリック 2 サンプル検定は、機械学習アプリケーションで 2 つの分布間の差異を検出するためによく使用されます。
しかし、既存の文献の大部分は、対象となる 2 つの分布からのエラーのないサンプルが利用可能であると仮定しています。我々はこの仮定を緩和し、$\epsilon$-contamination の下での MMD の推定を研究します。
1 つのディストリビューションの $ 割合が、誤って他のディストリビューションとグループ化されます。
$\epsilon$-contamination のもとでは、MMD の典型的な推定値は信頼できないことを示します。
その代わりに、我々は MMD の部分的な同定を研究し、真の未知の MMD を含む明確な上限と下限を特徴付けます。
我々はこれらの境界を推定する方法を提案し、サンプルサイズが増加するにつれてMMD上の可能な限りシャープな境界に収束する推定値が得られ、他のアプローチよりも速い収束速度を示すことを示します。
3 つのデータセットを使用して、私たちのアプローチが他のアプローチよりも優れていることを経験的に検証します。つまり、低い誤検出率で狭い境界が得られます。
要約(オリジナル)
Nonparametric two-sample tests such as the Maximum Mean Discrepancy (MMD) are often used to detect differences between two distributions in machine learning applications. However, the majority of existing literature assumes that error-free samples from the two distributions of interest are available.We relax this assumption and study the estimation of the MMD under $\epsilon$-contamination, where a possibly non-random $\epsilon$ proportion of one distribution is erroneously grouped with the other. We show that under $\epsilon$-contamination, the typical estimate of the MMD is unreliable. Instead, we study partial identification of the MMD, and characterize sharp upper and lower bounds that contain the true, unknown MMD. We propose a method to estimate these bounds, and show that it gives estimates that converge to the sharpest possible bounds on the MMD as sample size increases, with a convergence rate that is faster than alternative approaches. Using three datasets, we empirically validate that our approach is superior to the alternatives: it gives tight bounds with a low false coverage rate.
arxiv情報
| 著者 | Ron Nafshi,Maggie Makar |
| 発行日 | 2023-08-07 13:21:58+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google