Learning Distances from Data with Normalizing Flows and Score Matching

要約

密度ベースの距離 (DBD) は、計量学習の問題に対する洗練されたソリューションを提供します。
確率密度の減少とともに増加するリーマン計量を定義することにより、最短経路は自然にデータ多様体に従い、点はデータのモードに従ってクラスター化されます。
DBD の特定の選択であるフェルマー距離を推定する既存の方法は、i) 不正確な密度推定、および ii) 高次元ではますます粗くなるグラフベースのパスへの依存により、低次元と高次元の両方で収束が不十分であることを示します。
これらの問題に対処するために、正規化フロー、扱いやすい密度推定を備えた生成モデルを使用して密度を学習し、グラフベースの提案から初期化されたスコアモデルを使用した滑らかな緩和方法を採用することを提案します。
さらに、高次元にスケーリングしたときにより直感的な動作を示し、より優れた数値特性を提供する次元に適応したフェルマー距離を導入します。
私たちの研究は、特に高次元空間における密度ベースの距離の実用化への道を切り開きます。

要約(オリジナル)

Density-based distances (DBDs) offer an elegant solution to the problem of metric learning. By defining a Riemannian metric which increases with decreasing probability density, shortest paths naturally follow the data manifold and points are clustered according to the modes of the data. We show that existing methods to estimate Fermat distances, a particular choice of DBD, suffer from poor convergence in both low and high dimensions due to i) inaccurate density estimates and ii) reliance on graph-based paths which are increasingly rough in high dimensions. To address these issues, we propose learning the densities using a normalizing flow, a generative model with tractable density estimation, and employing a smooth relaxation method using a score model initialized from a graph-based proposal. Additionally, we introduce a dimension-adapted Fermat distance that exhibits more intuitive behavior when scaled to high dimensions and offers better numerical properties. Our work paves the way for practical use of density-based distances, especially in high-dimensional spaces.

arxiv情報

著者 Peter Sorrenson,Daniel Behrend-Uriarte,Christoph Schnörr,Ullrich Köthe
発行日 2024-07-12 14:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク