要約
ワッサーシュタイン距離は、最近多くの応用例が見られる確率測度の空間に関する計量ファミリーを形成します。
ただし、これらの空間での統計解析は、Wasserstein 空間の非線形性により複雑になります。
この問題に対する潜在的な解決策の 1 つは、Linear Optimal Transport (LOT) です。
この方法により、一部のワッサーシュタイン空間におけるメジャーの LOT 埋め込みと呼ばれるユークリッド埋め込みを見つけることができますが、この埋め込みでは一部の情報が失われます。
したがって、LOT エンベディングに依存する統計分析が元のデータについて有効な推論を行えるかどうかを理解するには、これらのエンベディングがそのデータをどの程度適切に記述しているかを定量化することが役立ちます。
この質問に答えるために、2-Wasserstein 空間における一連の測定値のフレシェ分散の分解を提示します。これにより、それらの測定値の LOT 埋め込みによって説明される分散のパーセンテージを計算できます。
次に、この分解を融合グロモフ-ワッサーシュタイン設定に拡張します。
また、LOT 埋め込みの次元、埋め込みによって説明される分散の割合、埋め込みデータに基づいて構築された機械学習分類器の分類精度の間の関係を調査するいくつかの実験も紹介します。
これらの実験には、MNIST 手書き数字データセット、IMDB-50000 データセット、拡散テンソル MRI 画像を使用します。
私たちの結果は、説明された分散のパーセンテージと、埋め込まれたデータに基づいて構築されたモデルの分類精度の観点から、低次元 LOT 埋め込みの有効性を示しています。
要約(オリジナル)
Wasserstein distances form a family of metrics on spaces of probability measures that have recently seen many applications. However, statistical analysis in these spaces is complex due to the nonlinearity of Wasserstein spaces. One potential solution to this problem is Linear Optimal Transport (LOT). This method allows one to find a Euclidean embedding, called LOT embedding, of measures in some Wasserstein spaces, but some information is lost in this embedding. So, to understand whether statistical analysis relying on LOT embeddings can make valid inferences about original data, it is helpful to quantify how well these embeddings describe that data. To answer this question, we present a decomposition of the Fr\’echet variance of a set of measures in the 2-Wasserstein space, which allows one to compute the percentage of variance explained by LOT embeddings of those measures. We then extend this decomposition to the Fused Gromov-Wasserstein setting. We also present several experiments that explore the relationship between the dimension of the LOT embedding, the percentage of variance explained by the embedding, and the classification accuracy of machine learning classifiers built on the embedded data. We use the MNIST handwritten digits dataset, IMDB-50000 dataset, and Diffusion Tensor MRI images for these experiments. Our results illustrate the effectiveness of low dimensional LOT embeddings in terms of the percentage of variance explained and the classification accuracy of models built on the embedded data.
arxiv情報
著者 | Michael Wilson,Tom Needham,Anuj Srivastava |
発行日 | 2024-11-15 14:10:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google