Manifold Learning with Sparse Regularised Optimal Transport

要約

マニホールド学習は、現代の統計とデータサイエンスの中心的なタスクです。
多くのデータセット(セル、ドキュメント、画像、分子)は、高次元の周囲空間に埋め込まれた点雲として表すことができますが、データに固有の自由度は通常、周囲の寸法の数よりもはるかに少ないです。
データが埋め込まれている潜在的マニホールドを検出するタスクは、下流の分析の幅広いファミリの前提条件です。
実際のデータセットは騒々しい観察とサンプリングの対象となるため、基礎となるマニホールドに関する蒸留情報が大きな課題です。
私たちは、二星の核の正規化の一般化として解釈できる、まばらで適応的な親和性マトリックスを構築する二次正則化を使用して、最適な輸送の対称バージョンを利用する方法を提案します。
結果のカーネルが連続制限のラプラス型演算子と一致していることを証明し、ヘテロスケダスティックノイズに対する堅牢性を確立し、これらの結果を数値実験で示します。
離散データに対してこの最適な輸送を計算するための非常に効率的な計算スキームを特定し、一連の例で競合する方法よりも優れていることを示します。

要約(オリジナル)

Manifold learning is a central task in modern statistics and data science. Many datasets (cells, documents, images, molecules) can be represented as point clouds embedded in a high dimensional ambient space, however the degrees of freedom intrinsic to the data are usually far fewer than the number of ambient dimensions. The task of detecting a latent manifold along which the data are embedded is a prerequisite for a wide family of downstream analyses. Real-world datasets are subject to noisy observations and sampling, so that distilling information about the underlying manifold is a major challenge. We propose a method for manifold learning that utilises a symmetric version of optimal transport with a quadratic regularisation that constructs a sparse and adaptive affinity matrix, that can be interpreted as a generalisation of the bistochastic kernel normalisation. We prove that the resulting kernel is consistent with a Laplace-type operator in the continuous limit, establish robustness to heteroskedastic noise and exhibit these results in numerical experiments. We identify a highly efficient computational scheme for computing this optimal transport for discrete data and demonstrate that it outperforms competing methods in a set of examples.

arxiv情報

著者 Stephen Zhang,Gilles Mordant,Tetsuya Matsumoto,Geoffrey Schiebinger
発行日 2025-02-17 16:24:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62R30, 68T01, cs.LG, math.ST, stat.ML, stat.TH パーマリンク