Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval

要約

デュアル エンコーダ ベースの音声検索システムは、一般に、一致する音声と不一致の音声キャプションのペアのセットに対する対照学習によって最適化されます。
これにより、2 つのモダリティからの対応する項目が最終的に近くに配置される共有埋め込み空間が得られます。
通常、音声キャプション データセットには録音と説明の一致するペアのみが含まれるため、音声とデータセットからランダムに抽出されたキャプションを組み合わせて、不一致のペアを作成することが一般的になっています。
ランダムにサンプリングされたキャプションが、偶然にオーディオ録音の一部または全体を説明する可能性があるため、これは理想的ではありません。
ただし、考えられるすべてのペアの対応情報は注釈を付けるのにコストがかかるため、通常は利用できません。
したがって、これを推定された対応関係に置き換えることをお勧めします。
この目的を達成するために、我々は、複数の検索モデルが最初に通常どおり、つまり推定対応関係なしでトレーニングされる 2 段階のトレーニング手順を提案します。
第 2 段階では、これらのモデルによって予測された音声と字幕の対応が予測ターゲットとして機能します。
ClothoV2 と AudioCaps ベンチマークでこの方法を評価し、単一のモデルが推定された対応関係を生成して学習するという制限された自己蒸留設定でも、この方法が検索パフォーマンスを向上させることを示します。
さらに、我々の方法が、ClothoV2 ベンチマークで現在の最先端技術よりも 1.6 pp. mAP@10 優れていることを示します。

要約(オリジナル)

Dual-encoder-based audio retrieval systems are commonly optimized with contrastive learning on a set of matching and mismatching audio-caption pairs. This leads to a shared embedding space in which corresponding items from the two modalities end up close together. Since audio-caption datasets typically only contain matching pairs of recordings and descriptions, it has become common practice to create mismatching pairs by pairing the audio with a caption randomly drawn from the dataset. This is not ideal because the randomly sampled caption could, just by chance, partly or entirely describe the audio recording. However, correspondence information for all possible pairs is costly to annotate and thus typically unavailable; we, therefore, suggest substituting it with estimated correspondences. To this end, we propose a two-staged training procedure in which multiple retrieval models are first trained as usual, i.e., without estimated correspondences. In the second stage, the audio-caption correspondences predicted by these models then serve as prediction targets. We evaluate our method on the ClothoV2 and the AudioCaps benchmark and show that it improves retrieval performance, even in a restricting self-distillation setting where a single model generates and then learns from the estimated correspondences. We further show that our method outperforms the current state of the art by 1.6 pp. mAP@10 on the ClothoV2 benchmark.

arxiv情報

著者 Paul Primus,Florian Schmid,Gerhard Widmer
発行日 2024-08-21 14:10:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク