Coarse-to-fine Alignment Makes Better Speech-image Retrieval

要約

この論文では、音声画像検索のための新しいフレームワークを提案します。
音声と画像の表現を粗いレベルで調整するために音声画像対比 (SIC) 学習タスクを利用し、きめの細かいクロスモーダル調整をさらに洗練するために音声画像マッチング (SIM) 学習タスクを利用します。
SIC と SIM の学習タスクは、統合された方法で共同トレーニングされます。
学習プロセスを最適化するために、SIC 学習中に高品質で多様な否定表現の効率的なサンプリングを促進する埋め込みキューを利用します。
さらに、SIC タスクで計算された対照的な類似性に基づいてハード ネガを効果的にマイニングすることで、SIM タスクの学習を強化します。
ノイズの多い監視下で学習をさらに最適化するために、トレーニング プロセスに運動量蒸留を組み込みます。
実験結果は、音声画像検索タスクの 2 つのベンチマーク データセットで、我々のフレームワークが R@1 において最先端の方法より 4% 以上優れていることを示しています。
さらに、ゼロショット実験で観察されたように、私たちのフレームワークは優れた一般化機能を示しています。

要約(オリジナル)

In this paper, we propose a novel framework for speech-image retrieval. We utilize speech-image contrastive (SIC) learning tasks to align speech and image representations at a coarse level and speech-image matching (SIM) learning tasks to further refine the fine-grained cross-modal alignment. SIC and SIM learning tasks are jointly trained in a unified manner. To optimize the learning process, we utilize an embedding queue that facilitates efficient sampling of high-quality and diverse negative representations during SIC learning. Additionally, it enhances the learning of SIM tasks by effectively mining hard negatives based on contrastive similarities calculated in SIC tasks. To further optimize learning under noisy supervision, we incorporate momentum distillation into the training process. Experimental results show that our framework outperforms the state-of-the-art method by more than 4% in R@1 on two benchmark datasets for the speech-image retrieval tasks. Moreover, as observed in zero-shot experiments, our framework demonstrates excellent generalization capabilities.

arxiv情報

著者 Lifeng Zhou,Yuke Li
発行日 2024-09-11 10:00:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク