要約
私たちは、統計と機械学習の基本的な問題である 2 サンプル テストの投影ワッサースタイン距離を開発します。つまり、2 セットのサンプルが与えられ、それらが同じ分布からのものであるかどうかを判断します。
特に、ワッサーシュタイン距離における次元の呪いを回避することを目指しています。次元が高いとテスト能力が低下しますが、これは本質的に、高次元空間におけるワッサーシュタイン計量の集中が遅い特性によるものです。
主な貢献は、最適な投影を組み合わせて低次元の線形マッピングを見つけ、投影された確率分布間のワッサーシュタイン距離を最大化することです。
我々は、IPM における有限サンプル収束率の理論的特性を特徴付け、このメトリクスを計算するための実用的なアルゴリズムを提示します。
数値例は理論的結果を検証します。
要約(オリジナル)
We develop a projected Wasserstein distance for the two-sample test, a fundamental problem in statistics and machine learning: given two sets of samples, to determine whether they are from the same distribution. In particular, we aim to circumvent the curse of dimensionality in Wasserstein distance: when the dimension is high, it has diminishing testing power, which is inherently due to the slow concentration property of Wasserstein metrics in the high dimension space. A key contribution is to couple optimal projection to find the low dimensional linear mapping to maximize the Wasserstein distance between projected probability distributions. We characterize the theoretical property of the finite-sample convergence rate on IPMs and present practical algorithms for computing this metric. Numerical examples validate our theoretical results.
arxiv情報
著者 | Jie Wang,Rui Gao,Yao Xie |
発行日 | 2024-03-29 14:40:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google