Optimal Transport for Measures with Noisy Tree Metric

要約

ツリー計量空間でサポートされる確率測度の最適輸送 (OT) 問題を研究します。
このような OT 問題 (つまり、ツリー-ワッサーシュタイン (TW)) は閉じた形式の式を許容しますが、基本的に入力メジャーのサポートよりも基礎となるツリー構造に依存することが知られています。
ただし、実際には、ノイズの多い測定や敵対的な測定により、指定されたツリー構造が乱される可能性があります。
この問題を軽減するために、ツリー メトリクスの不確実性セットにわたる 2 つの入力メジャー間の最大可能距離を考慮する最大-最小ロバスト OT アプローチに従います。
一般に、このアプローチは、$1$ 次元空間でサポートされるメジャーであっても、その非凸性と非滑らかさにより、特に大規模な設定では実際の適用が妨げられるため、計算するのが困難です。
この研究では、エレガントなフレームワークで多様なツリー構造をカバーする、エッジの削除/追加のレンズから \emph{ツリー指標の新しい不確実性セット} を提案します。
したがって、提案された不確実性セットに基づいて構築し、サポート上のツリー構造を活用することにより、最大-最小ロバスト OT は、対応する標準 OT (つまり TW) と同様に高速計算のための閉形式式も許容することを示します。
さらに、最大-最小ロバスト OT が計量特性を満たし、負定値であることを示します。
次に、その負の定値性を利用して \emph{正定値カーネル} を提案し、文書分類とノイジー ツリー メトリクスを使用した測度のトポロジカル データ分析に関して、現実世界のさまざまなデータセット上でいくつかのシミュレーションでテストします。

要約(オリジナル)

We study optimal transport (OT) problem for probability measures supported on a tree metric space. It is known that such OT problem (i.e., tree-Wasserstein (TW)) admits a closed-form expression, but depends fundamentally on the underlying tree structure over supports of input measures. In practice, the given tree structure may be, however, perturbed due to noisy or adversarial measurements. In order to mitigate this issue, we follow the max-min robust OT approach which considers the maximal possible distances between two input measures over an uncertainty set of tree metrics. In general, this approach is hard to compute, even for measures supported in $1$-dimensional space, due to its non-convexity and non-smoothness which hinders its practical applications, especially for large-scale settings. In this work, we propose \emph{novel uncertainty sets of tree metrics} from the lens of edge deletion/addition which covers a diversity of tree structures in an elegant framework. Consequently, by building upon the proposed uncertainty sets, and leveraging the tree structure over supports, we show that the max-min robust OT also admits a closed-form expression for a fast computation as its counterpart standard OT (i.e., TW). Furthermore, we demonstrate that the max-min robust OT satisfies the metric property and is negative definite. We then exploit its negative definiteness to propose \emph{positive definite kernels} and test them in several simulations on various real-world datasets on document classification and topological data analysis for measures with noisy tree metric.

arxiv情報

著者 Tam Le,Truyen Nguyen,Kenji Fukumizu
発行日 2023-10-20 16:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク