Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval

要約

クロスモーダル検索モデルは、三重損失最適化の可能性を活用して、堅牢な埋め込み空間を学習します。
ただし、既存の手法ではこれらのモデルを単一パスでトレーニングすることが多く、最適化プロセスにおけるセミハード トリプルとハード トリプルの区別が見落とされます。
セミハード トリプルとハード トリプルを区別しないという見落としにより、モデルのパフォーマンスが最適化されません。
この論文では、この問題に対処するためのカリキュラム学習に根ざした新しいアプローチを紹介します。
モデルの学習プロセスをセミハード トリプレットからハード トリプレットに導く 2 段階のトレーニング パラダイムを提案します。
最初の段階では、モデルは低損失ベースから開始して、一連のセミハード トリプレットを使用してトレーニングされます。
続いて、第 2 段階で、補間技術を使用して埋め込みを拡張します。
このプロセスにより、潜在的なハード ネガが特定され、ハード トリプルの不足による高損失関数から生じる問題が軽減されます。
次に、私たちのアプローチは、拡張埋め込み空間でハード トリプレット マイニングを適用して、モデルをさらに最適化します。
2 つのオーディオビジュアル データセットに対して行われた広範な実験結果では、オーディオビジュアル クロスモーダルの現在の最先端の手法である MSNSCA と比較して、平均平均精度 (MAP) の点で約 9.8% の大幅な改善が示されています。
AVE データセットに対する検索 (AV-CMR) タスク。提案手法の有効性を示します。

要約(オリジナル)

The cross-modal retrieval model leverages the potential of triple loss optimization to learn robust embedding spaces. However, existing methods often train these models in a singular pass, overlooking the distinction between semi-hard and hard triples in the optimization process. The oversight of not distinguishing between semi-hard and hard triples leads to suboptimal model performance. In this paper, we introduce a novel approach rooted in curriculum learning to address this problem. We propose a two-stage training paradigm that guides the model’s learning process from semi-hard to hard triplets. In the first stage, the model is trained with a set of semi-hard triplets, starting from a low-loss base. Subsequently, in the second stage, we augment the embeddings using an interpolation technique. This process identifies potential hard negatives, alleviating issues arising from high-loss functions due to a scarcity of hard triples. Our approach then applies hard triplet mining in the augmented embedding space to further optimize the model. Extensive experimental results conducted on two audio-visual datasets show a significant improvement of approximately 9.8% in terms of average Mean Average Precision (MAP) over the current state-of-the-art method, MSNSCA, for the Audio-Visual Cross-Modal Retrieval (AV-CMR) task on the AVE dataset, indicating the effectiveness of our proposed method.

arxiv情報

著者 Donghuo Zeng,Kazushi Ikeda
発行日 2023-10-20 12:35:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS パーマリンク