Improving Sound Source Localization with Joint Slot Attention on Image and Audio

要約

サウンドソースのローカリゼーション(SSL)は、画像内の音源を見つけるタスクです。
ローカリゼーションラベルがないため、SSLの事実上の基準は、それぞれ単一の埋め込みベクターとして画像とオーディオを表現し、それらを使用して対照的な学習を介してSSLを学習することでした。
この目的のために、以前の作業は、イメージの埋め込みとしてローカル画像機能の1つをサンプリングし、すべてのローカルオーディオ機能を集計してオーディオ埋め込みを取得します。これは、入力の実際のターゲットとは無関係なノイズとバックグラウンドの存在のために最適ではありません。
画像とオーディオに関する共同スロットの注意によってこの慢性的な問題に対処する新しいSSLメソッドを提示します。
具体的には、2つのスロットが画像とオーディオ機能に競争力のあるターゲット表現とターゲット表現に分解し、画像とオーディオのターゲット表現のみが対照的な学習に使用されます。
また、画像とオーディオのローカル機能をさらに調整するために、クロスモーダルの注意マッチングを紹介します。
私たちの方法は、SSLの3つのパブリックベンチマークでほぼすべての設定で最高の設定を達成し、クロスモーダル検索で以前のすべての作業を大幅に上回りました。

要約(オリジナル)

Sound source localization (SSL) is the task of locating the source of sound within an image. Due to the lack of localization labels, the de facto standard in SSL has been to represent an image and audio as a single embedding vector each, and use them to learn SSL via contrastive learning. To this end, previous work samples one of local image features as the image embedding and aggregates all local audio features to obtain the audio embedding, which is far from optimal due to the presence of noise and background irrelevant to the actual target in the input. We present a novel SSL method that addresses this chronic issue by joint slot attention on image and audio. To be specific, two slots competitively attend image and audio features to decompose them into target and off-target representations, and only target representations of image and audio are used for contrastive learning. Also, we introduce cross-modal attention matching to further align local features of image and audio. Our method achieved the best in almost all settings on three public benchmarks for SSL, and substantially outperformed all the prior work in cross-modal retrieval.

arxiv情報

著者 Inho Kim,Youngkil Song,Jicheol Park,Won Hwa Kim,Suha Kwak
発行日 2025-04-21 14:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD パーマリンク