Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes

要約

視覚シーン内の音声言語と非スピーチの両方の音の両方を同時に接地できる統合モデルを提示し、現在の視聴覚接地モデルの重要な制限に対処します。
既存のアプローチは、通常、スピーチまたは非スピーチサウンドのいずれかを個別に、またはせいぜい、一緒に処理することに限定されますが、混合することはありません。
この制限により、彼らはしばしば混合される現実世界のオーディオソースの複雑さをキャプチャすることを妨げます。
私たちのアプローチでは、混合オーディオを使用して対応と解体を共同で学習する音声視聴覚アラインメント目標を備えた「ミックスアンドセラート」フレームワークを紹介します。
これらの目的を通じて、私たちのモデルは、各オーディオタイプの明確な埋め込みを生成し、混合オーディオソース全体で効果的な解体と接地を可能にすることを学びます。
さらに、混合オーディオソースの同時接地を評価するための新しいデータセットを作成し、モデルが以前の方法よりも優れていることを示しています。
また、私たちのアプローチは、標準のセグメンテーションおよびクロスモーダル検索タスクで同等のパフォーマンスまたはより良いパフォーマンスを達成し、混合アプローチの利点を強調しています。

要約(オリジナル)

We present a unified model capable of simultaneously grounding both spoken language and non-speech sounds within a visual scene, addressing key limitations in current audio-visual grounding models. Existing approaches are typically limited to handling either speech or non-speech sounds independently, or at best, together but sequentially without mixing. This limitation prevents them from capturing the complexity of real-world audio sources that are often mixed. Our approach introduces a ‘mix-and-separate’ framework with audio-visual alignment objectives that jointly learn correspondence and disentanglement using mixed audio. Through these objectives, our model learns to produce distinct embeddings for each audio type, enabling effective disentanglement and grounding across mixed audio sources. Additionally, we created a new dataset to evaluate simultaneous grounding of mixed audio sources, demonstrating that our model outperforms prior methods. Our approach also achieves comparable or better performance in standard segmentation and cross-modal retrieval tasks, highlighting the benefits of our mix-and-separate approach.

arxiv情報

著者 Hyeonggon Ryu,Seongyu Kim,Joon Son Chung,Arda Senocak
発行日 2025-03-24 16:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク