Sounding that Object: Interactive Object-Aware Image to Audio Generation

要約

複雑なオーディオビジュアルシーンに対して正確なサウンドを生成することは、特に複数のオブジェクトや音源が存在する場合には困難である。本論文では、画像内のユーザが選択した視覚オブジェクトにサウンド生成を根拠づける{em interactive object-aware audio generation}モデルを提案する。本手法は、オブジェクト中心の学習を条件付き潜在拡散モデルに統合し、マルチモーダルな注意を通じて、画像領域と対応する音を関連付けることを学習する。テスト時に、我々のモデルは画像セグメンテーションを採用して、ユーザが{em object}レベルで音をインタラクティブに生成できるようにする。我々は、我々の注意メカニズムがテスト時のセグメンテーションマスクを機能的に近似し、生成された音声が選択されたオブジェクトと確実に一致することを理論的に検証する。定量的かつ定性的な評価により、我々のモデルがベースラインを上回り、オブジェクトとそれに関連する音との間のより良い位置合わせを達成することが示された。プロジェクトページ: https://tinglok.netlify.app/files/avobject/

要約(オリジナル)

Generating accurate sounds for complex audio-visual scenes is challenging, especially in the presence of multiple objects and sound sources. In this paper, we propose an {\em interactive object-aware audio generation} model that grounds sound generation in user-selected visual objects within images. Our method integrates object-centric learning into a conditional latent diffusion model, which learns to associate image regions with their corresponding sounds through multi-modal attention. At test time, our model employs image segmentation to allow users to interactively generate sounds at the {\em object} level. We theoretically validate that our attention mechanism functionally approximates test-time segmentation masks, ensuring the generated audio aligns with selected objects. Quantitative and qualitative evaluations show that our model outperforms baselines, achieving better alignment between objects and their associated sounds. Project page: https://tinglok.netlify.app/files/avobject/

arxiv情報

著者 Tingle Li,Baihe Huang,Xiaobin Zhuang,Dongya Jia,Jiawei Chen,Yuping Wang,Zhuo Chen,Gopala Anumanchipalli,Yuxuan Wang
発行日 2025-06-04 17:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク