Sound Source Localization is All about Cross-Modal Alignment

要約

人間は、音源定位と呼ばれる、視覚的なシーンにおける音源の方向を容易に認識できます。
学習ベースの音源定位に関する最近の研究では、主に定位の観点から問題が調査されています。
しかしながら、従来技術および既存のベンチマークは、問題のより重要な側面である、真の音源定位に不可欠なクロスモーダル意味論的理解を考慮していない。
クロスモーダルな意味理解は、例えば、沈黙の物体や画面外の音など、意味的に不一致な視聴覚イベントを理解する上で重要です。
これを説明するために、オーディオとビジュアルのモダリティ間の相互作用をよりよく学習するために、音源定位との共同タスクとしてクロスモーダル アライメント タスクを提案します。
これにより、クロスモーダルな意味論的理解を強力に実現し、高い位置特定パフォーマンスを実現します。
私たちの方法は、音源位置特定とクロスモーダル検索の両方において最先端のアプローチを上回ります。
私たちの研究は、真の音源定位を克服するには両方の課題に共同で取り組むことが必要であることを示唆しています。

要約(オリジナル)

Humans can easily perceive the direction of sound sources in a visual scene, termed sound source localization. Recent studies on learning-based sound source localization have mainly explored the problem from a localization perspective. However, prior arts and existing benchmarks do not account for a more important aspect of the problem, cross-modal semantic understanding, which is essential for genuine sound source localization. Cross-modal semantic understanding is important in understanding semantically mismatched audio-visual events, e.g., silent objects, or off-screen sounds. To account for this, we propose a cross-modal alignment task as a joint task with sound source localization to better learn the interaction between audio and visual modalities. Thereby, we achieve high localization performance with strong cross-modal semantic understanding. Our method outperforms the state-of-the-art approaches in both sound source localization and cross-modal retrieval. Our work suggests that jointly tackling both tasks is necessary to conquer genuine sound source localization.

arxiv情報

著者 Arda Senocak,Hyeonggon Ryu,Junsik Kim,Tae-Hyun Oh,Hanspeter Pfister,Joon Son Chung
発行日 2023-09-19 16:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS パーマリンク