Revisiting Deep Audio-Text Retrieval Through the Lens of Transportation

要約

Learning-to-match (LTM) フレームワークは、2 つのデータ ソース間の基礎となるグラウンド メトリックを学習し、その後のマッチングを容易にするための効果的な逆最適トランスポート アプローチであることが証明されています。
ただし、従来の LTM フレームワークはスケーラビリティの課題に直面しており、地上メトリックのパラメーターが更新されるたびにデータセット全体を使用する必要があります。
LTM を深層学習コンテキストに適応させる際に、音声テキスト検索問題用のミニバッチ Learning-to-match (m-LTM) フレームワークを導入します。
このフレームワークは、ミニバッチ サブサンプリングとマハラノビスで強化された地上メトリクス ファミリを利用します。
さらに、実際に不整合なトレーニングデータに対処するために、部分最適トランスポートを使用して、トレーニングデータ内の不整合なデータペアの害を軽減するバリアントを提案します。
私たちは、AudioCaps、Clotho、ESC-50 の 3 つのデータセットを使用して、オーディオとテキストのマッチング問題について広範な実験を行っています。
結果は、私たちの提案した方法が豊かで表現力豊かなジョイント埋め込み空間を学習でき、SOTAパフォーマンスを達成できることを示しています。
さらに、提案された m-LTM フレームワークは、オーディオとテキストの埋め込みにわたるモダリティのギャップを埋めることができ、ESC-50 データセットのゼロショット サウンド イベント検出タスクにおけるトリプレット損失とコントラスト損失の両方を超えます。
特に、m-LTM で部分最適トランスポートを採用する戦略は、特に AudioCaps データセット上のトレーニング データのさまざまなノイズ比の下で、コントラスト損失よりも優れたノイズ耐性を示しています。
コードは https://github.com/v-manhlt3/m-LTM-Audio-Text-Retrieval で入手できます。

要約(オリジナル)

The Learning-to-match (LTM) framework proves to be an effective inverse optimal transport approach for learning the underlying ground metric between two sources of data, facilitating subsequent matching. However, the conventional LTM framework faces scalability challenges, necessitating the use of the entire dataset each time the parameters of the ground metric are updated. In adapting LTM to the deep learning context, we introduce the mini-batch Learning-to-match (m-LTM) framework for audio-text retrieval problems. This framework leverages mini-batch subsampling and Mahalanobis-enhanced family of ground metrics. Moreover, to cope with misaligned training data in practice, we propose a variant using partial optimal transport to mitigate the harm of misaligned data pairs in training data. We conduct extensive experiments on audio-text matching problems using three datasets: AudioCaps, Clotho, and ESC-50. Results demonstrate that our proposed method is capable of learning rich and expressive joint embedding space, which achieves SOTA performance. Beyond this, the proposed m-LTM framework is able to close the modality gap across audio and text embedding, which surpasses both triplet and contrastive loss in the zero-shot sound event detection task on the ESC-50 dataset. Notably, our strategy of employing partial optimal transport with m-LTM demonstrates greater noise tolerance than contrastive loss, especially under varying noise ratios in training data on the AudioCaps dataset. Our code is available at https://github.com/v-manhlt3/m-LTM-Audio-Text-Retrieval

arxiv情報

著者 Manh Luong,Khai Nguyen,Nhat Ho,Reza Haf,Dinh Phung,Lizhen Qu
発行日 2024-05-16 13:28:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク