MarginNCE: Robust Sound Localization with a Negative Margin

要約

本研究の目的は、自己教師付きアプローチにより、視覚的シーンにおける音源の位置特定を行うことである。音源探査の文脈における対比学習は、音声信号と視覚信号の自然な対応関係を利用するもので、同じ音源からのオーディオビジュアルペアを正とし、ランダムに選択されたペアを負とする。しかし、この方法では、例えば、互いに無関係な音声と映像のペアが正であったり、正のペアと意味的に類似したサンプルを含む負のペアが存在したりと、対応関係にノイズが含まれます。本研究では、コントラスト学習において、あまり厳密でない判定境界を用いることで、音源探査におけるノイズの多い対応付けの影響を軽減できることを示すことにある。我々は、負のマージンを用いて対比損失をわずかに修正することで、シンプルかつ効果的なアプローチを提案する。広範な実験により,本アプローチは最先端の手法と同等以上の性能を与えることが示された.さらに、既存の手法に負のマージンを導入することで、一貫した性能向上が得られることを示す。

要約(オリジナル)

The goal of this work is to localize sound sources in visual scenes with a self-supervised approach. Contrastive learning in the context of sound source localization leverages the natural correspondence between audio and visual signals where the audio-visual pairs from the same source are assumed as positive, while randomly selected pairs are negatives. However, this approach brings in noisy correspondences; for example, positive audio and visual pair signals that may be unrelated to each other, or negative pairs that may contain semantically similar samples to the positive one. Our key contribution in this work is to show that using a less strict decision boundary in contrastive learning can alleviate the effect of noisy correspondences in sound source localization. We propose a simple yet effective approach by slightly modifying the contrastive loss with a negative margin. Extensive experimental results show that our approach gives on-par or better performance than the state-of-the-art methods. Furthermore, we demonstrate that the introduction of a negative margin to existing methods results in a consistent improvement in performance.

arxiv情報

著者 Sooyoung Park,Arda Senocak,Joon Son Chung
発行日 2022-11-03 16:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV パーマリンク