Optimal Transport for Measures with Noisy Tree Metric

要約

我々は、木計量空間上の確率測度に対する最適輸送(OT)問題を研究している。このようなOT問題(すなわちtree-Wasserstein(TW))は閉形式で表されることが知られているが、基本的には入力尺度のサポート上の木構造に依存する。しかし実際には、与えられた木構造は、ノイズの多い測定や敵対的な測定によって摂動される可能性がある。この問題を軽減するために、我々は、木メトリクスの不確かさセット上の2つの入力尺度の間の可能な最大距離を考慮するmax-minロバストOTアプローチに従う。一般に、このアプローチは非凸性と非平滑性のため、1次元空間でサポートされる測度であっても計算が困難であり、特に大規模な設定への実用的な応用を妨げている。本研究では、エッジの削除/追加という観点から、木構造の多様性をエレガントなフレームワークでカバーする、木メトリクスの新しい不確かさ集合を提案する。その結果、提案した不確定性集合を基礎とし、サポート上の木構造を活用することで、ロバストOTも、対応する標準OT(すなわち、TW)と同様に、高速計算のための閉形式が成立することを示す。さらに、ロバストOTがメトリック特性を満たし、負定値であることを示す。次に、その負定値性を利用して正定値カーネルを提案し、文書分類とトポロジカルデータ解析に関する様々な実世界データセットを用いて、いくつかのシミュレーションでそれらをテストする。

要約(オリジナル)

We study optimal transport (OT) problem for probability measures supported on a tree metric space. It is known that such OT problem (i.e., tree-Wasserstein (TW)) admits a closed-form expression, but depends fundamentally on the underlying tree structure over supports of input measures. In practice, the given tree structure may be, however, perturbed due to noisy or adversarial measurements. To mitigate this issue, we follow the max-min robust OT approach which considers the maximal possible distances between two input measures over an uncertainty set of tree metrics. In general, this approach is hard to compute, even for measures supported in one-dimensional space, due to its non-convexity and non-smoothness which hinders its practical applications, especially for large-scale settings. In this work, we propose novel uncertainty sets of tree metrics from the lens of edge deletion/addition which covers a diversity of tree structures in an elegant framework. Consequently, by building upon the proposed uncertainty sets, and leveraging the tree structure over supports, we show that the robust OT also admits a closed-form expression for a fast computation as its counterpart standard OT (i.e., TW). Furthermore, we demonstrate that the robust OT satisfies the metric property and is negative definite. We then exploit its negative definiteness to propose positive definite kernels and test them in several simulations on various real-world datasets on document classification and topological data analysis.

arxiv情報

著者 Tam Le,Truyen Nguyen,Kenji Fukumizu
発行日 2024-03-01 02:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク