Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval

要約

音声と画像の検索が成功するかどうかは、音声と画像の間の効果的な調整を確立できるかどうかにかかっています。
既存の手法では、各モダリティのグローバルな特徴の単純なコサイン類似性を通じてクロスモーダル相互作用をモデル化することが多く、モダリティ内のきめ細かい詳細を捉えるには不十分です。
この問題に対処するために、クロスモーダル インタラクションを強化してより詳細なレベルのクロスモーダル アライメントを実現する、クロスモーダル ノイズ除去 (CMD) という名前の効果的なフレームワークと新しい学習タスクを導入します。
具体的には、CMD は、別のモダリティの特徴を相互作用させることによって、1 つのモダリティ内のノイズのある特徴から意味論的特徴を再構築するように設計されたノイズ除去タスクです。
特に、CMD はモデルのトレーニング中にのみ動作し、推論中に余分な推論時間を追加することなく削除できます。
実験結果は、音声画像検索タスクに関して、私たちのフレームワークが最先端の手法よりも、Flickr8k データセットの平均 R@1 で 2.0%、SpokenCOCO データセットの平均 R@1 で 1.7% 優れていることを示しています。
それぞれ。
これらの実験結果は、私たちのフレームワークの効率と有効性を検証します。

要約(オリジナル)

The success of speech-image retrieval relies on establishing an effective alignment between speech and image. Existing methods often model cross-modal interaction through simple cosine similarity of the global feature of each modality, which fall short in capturing fine-grained details within modalities. To address this issue, we introduce an effective framework and a novel learning task named cross-modal denoising (CMD) to enhance cross-modal interaction to achieve finer-level cross-modal alignment. Specifically, CMD is a denoising task designed to reconstruct semantic features from noisy features within one modality by interacting features from another modality. Notably, CMD operates exclusively during model training and can be removed during inference without adding extra inference time. The experimental results demonstrate that our framework outperforms the state-of-the-art method by 2.0% in mean R@1 on the Flickr8k dataset and by 1.7% in mean R@1 on the SpokenCOCO dataset for the speech-image retrieval tasks, respectively. These experimental results validate the efficiency and effectiveness of our framework.

arxiv情報

著者 Lifeng Zhou,Yuke Li,Rui Deng,Yuting Yang,Haoqi Zhu
発行日 2024-09-11 07:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク