Lightspeed Geometric Dataset Distance via Sliced Optimal Transport

要約

スライスした最適な輸送データセット距離(S-OTDD)を導入します。これは、トレーニングを必要としないデータセット比較のためのモデルに依存しない埋め込み型存在アプローチであり、クラスの数の変動に対して堅牢であり、孤独なラベルセットを処理できます。
コアイノベーションは、モーメント変換プロジェクション(MTP)であり、ラベルをマッピングして、機能よりも分布として表され、実数に表されます。
MTPを使用して、データセットを1次元分布に変換するデータポイントプロジェクションを導き出します。
S-OTDDは、ランダム投影パラメーターに関して、予想される分布間の予想されるワッサースタイン距離として定義されます。
S-OTDDは、1次元最適輸送の閉じたフォームソリューションを活用して、データポイントと特徴の寸法の数で(近く)線形計算の複雑さを実現し、クラスの数とは無関係です。
幾何学的に意味のある投影により、S-OTDDは最適な輸送データセット距離と強く相関し、既存のデータセットの矛盾測定よりも効率的です。
さらに、データ増強の転送学習と分類精度のパフォーマンスギャップとよく相関しています。

要約(オリジナル)

We introduce sliced optimal transport dataset distance (s-OTDD), a model-agnostic, embedding-agnostic approach for dataset comparison that requires no training, is robust to variations in the number of classes, and can handle disjoint label sets. The core innovation is Moment Transform Projection (MTP), which maps a label, represented as a distribution over features, to a real number. Using MTP, we derive a data point projection that transforms datasets into one-dimensional distributions. The s-OTDD is defined as the expected Wasserstein distance between the projected distributions, with respect to random projection parameters. Leveraging the closed form solution of one-dimensional optimal transport, s-OTDD achieves (near-)linear computational complexity in the number of data points and feature dimensions and is independent of the number of classes. With its geometrically meaningful projection, s-OTDD strongly correlates with the optimal transport dataset distance while being more efficient than existing dataset discrepancy measures. Moreover, it correlates well with the performance gap in transfer learning and classification accuracy in data augmentation.

arxiv情報

著者 Khai Nguyen,Hai Nguyen,Tuan Pham,Nhat Ho
発行日 2025-05-15 17:48:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.CO, stat.ME, stat.ML パーマリンク