要約
測地線距離は、非線形空間で距離を測定する信頼できる手段として機能し、そのような非線形マニホールドは現在のマルチモーダル学習で一般的です。
これらのシナリオでは、いくつかのサンプルは高い類似性を示す可能性がありますが、それらは異なるセマンティクスを伝え、従来の距離メトリックを正と負のサンプルを区別するのに不十分になります。
このペーパーでは、マルチモーダル学習の新しい距離メトリックとしての測地線距離を初めて紹介し、サンプル間の相関関係を採掘し、共通の距離メトリックの制限に対処することを目指しています。
私たちのアプローチには、現在のマルチモーダル学習に測地線距離を適応させるための包括的な一連の戦略が組み込まれています。
具体的には、サンプル間の隣接関係を表すためのグラフ構造を構築し、それらの間のしきい値距離によってサンプル間の隣接関係を表し、このグラフ内の測地線距離を取得するために最短パスアルゴリズムを適用します。
効率的な計算を容易にするために、クラスタリングを通じて階層グラフ構造をさらに提案し、動的ステータスの更新のための増分更新戦略と組み合わせます。
さまざまなダウンストリームタスクにわたる広範な実験は、提案された方法の有効性を検証し、サンプル間の複雑な関係をキャプチャし、マルチモーダル学習モデルのパフォーマンスを向上させる能力を実証します。
要約(オリジナル)
Geodesic distance serves as a reliable means of measuring distance in nonlinear spaces, and such nonlinear manifolds are prevalent in the current multimodal learning. In these scenarios, some samples may exhibit high similarity, yet they convey different semantics, making traditional distance metrics inadequate for distinguishing between positive and negative samples. This paper introduces geodesic distance as a novel distance metric in multi-modal learning for the first time, to mine correlations between samples, aiming to address the limitations of common distance metric. Our approach incorporates a comprehensive series of strategies to adapt geodesic distance for the current multimodal learning. Specifically, we construct a graph structure to represent the adjacency relationships among samples by thresholding distances between them and then apply the shortest-path algorithm to obtain geodesic distance within this graph. To facilitate efficient computation, we further propose a hierarchical graph structure through clustering and combined with incremental update strategies for dynamic status updates. Extensive experiments across various downstream tasks validate the effectiveness of our proposed method, demonstrating its capability to capture complex relationships between samples and improve the performance of multimodal learning models.
arxiv情報
著者 | Shibin Mei,Hang Wang,Bingbing Ni |
発行日 | 2025-05-16 13:12:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google