Video-Guided Foley Sound Generation with Multimodal Controls

要約

ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウンドデザインの柔軟なコントロールから大きく分岐する芸術的なサウンドエフェクトを作成する必要があります。
この問題に対処するために、テキスト、オーディオ、ビデオを介したマルチモーダルコンディショニングをサポートするビデオ誘導サウンド生成向けに設計されたモデルであるMultifoleyを紹介します。
サイレントビデオとテキストのプロンプトを考えると、Multifoleyは、ユーザーがきれいなサウンド(たとえば、風の騒音なしで回転するスケートボードホイールなど)またはより気まぐれな音(たとえば、猫の鳴き声のようにライオンのro音を作る)を作成できます。
Multifoleyを使用すると、ユーザーはサウンドエフェクト(SFX)ライブラリから参照オーディオまたはコンディショニング用の部分ビデオを選択できます。
私たちのモデルの重要な斬新さは、低品質のオーディオとプロフェッショナルSFX録音を備えたインターネットビデオデータセットの両方での共同トレーニングにあり、高品質のフルバンドワイド(48kHz)のオーディオ生成を可能にします。
自動評価と人間の研究を通じて、MultiFoleyがさまざまな条件付き入力間で同期された高品質の音を生成し、既存の方法を上回ることを実証します。
ビデオの結果については、プロジェクトページをご覧ください:https://ificl.github.io/multifoley/

要約(オリジナル)

Generating sound effects for videos often requires creating artistic sound effects that diverge significantly from real-life sources and flexible control in the sound design. To address this problem, we introduce MultiFoley, a model designed for video-guided sound generation that supports multimodal conditioning through text, audio, and video. Given a silent video and a text prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels spinning without wind noise) or more whimsical sounds (e.g., making a lion’s roar sound like a cat’s meow). MultiFoley also allows users to choose reference audio from sound effects (SFX) libraries or partial videos for conditioning. A key novelty of our model lies in its joint training on both internet video datasets with low-quality audio and professional SFX recordings, enabling high-quality, full-bandwidth (48kHz) audio generation. Through automated evaluations and human studies, we demonstrate that MultiFoley successfully generates synchronized high-quality sounds across varied conditional inputs and outperforms existing methods. Please see our project page for video results: https://ificl.github.io/MultiFoley/

arxiv情報

著者 Ziyang Chen,Prem Seetharaman,Bryan Russell,Oriol Nieto,David Bourgin,Andrew Owens,Justin Salamon
発行日 2025-03-17 17:44:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク