Efficient and Stable Multi-Dimensional Kolmogorov-Smirnov Distance

要約

確率分布間のコルモゴロフスミルノフ距離を多次元設定に延長し、この一般化にアプローチする適切な方法について新しい議論を行うことを再検討します。
提案された定式化は、直交を支配する長方形範囲(r^dのd側の長方形)の差を最大化し、積分確率メトリックです。
また、分布と分布のサンプル間の距離がサンプルサイズが増加するにつれて0に収束し、このレートを削減することを証明します。
さらに、この同じ近似誤差まで、4次元以下で距離を効率的に計算できることを示します。
具体的には、ランタイムは、そのエラーに必要なサンプルのサイズがほぼ線形です。
これにより、この距離を使用してDelta Precision 2サンプル仮説検定を導き出します。
最後に、これらのメトリックおよび近似特性が他の一般的なバリアントについては保持されていないことを示します。

要約(オリジナル)

We revisit extending the Kolmogorov-Smirnov distance between probability distributions to the multidimensional setting and make new arguments about the proper way to approach this generalization. Our proposed formulation maximizes the difference over orthogonal dominating rectangular ranges (d-sided rectangles in R^d), and is an integral probability metric. We also prove that the distance between a distribution and a sample from the distribution converges to 0 as the sample size grows, and bound this rate. Moreover, we show that one can, up to this same approximation error, compute the distance efficiently in 4 or fewer dimensions; specifically the runtime is near-linear in the size of the sample needed for that error. With this, we derive a delta-precision two-sample hypothesis test using this distance. Finally, we show these metric and approximation properties do not hold for other popular variants.

arxiv情報

著者 Peter Matthew Jacobs,Foad Namjoo,Jeff M. Phillips
発行日 2025-04-15 15:42:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.LG, stat.CO パーマリンク