FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment

要約

従来のサウンドデザインワークフローは、フォーリーサウンドデザインのように、オーディオイベントをビジュアルキューに合わせるという手作業に頼っていました。このプロセスは時間がかかり、拡張が難しく、クリエイティブな意図を維持する自動化ツールがありません。最近、視覚から音声への生成が進歩したにもかかわらず、動画から時間的に一貫性があり、意味的に制御可能な効果音を生成することは、依然として大きな課題となっています。これらの限界に対処するために、我々はFolAIを導入する。FolAIは、音合成の「いつ」と「何を」を分離する2段階の生成フレームワークである。第一段階では、音声の時間的な足場となる、時間の経過に伴う動きの強さとリズム構造を捉えた滑らかな制御信号を映像から推定する。第2段階では、拡散に基づく生成モデルが、この時間的エンベロープと、ユーザーが提供する、希望する聴覚コンテンツ(例えば、素材やアクションの種類)を定義する高レベルの意味埋め込みの両方を条件として、音響効果を生成する。このモジュール設計により、タイミングと音色の正確な制御が可能になり、プロのフォーリーワークフローにおける創造的な柔軟性を維持しながら、反復作業を効率化することができます。足音の生成やアクションに特化したソノライゼーションなど、多様な視覚的コンテクストの結果は、我々のモデルが、視覚的な動きと時間的に一致し、ユーザーの意図と意味的に一致し、知覚的にリアルな音声を確実に生成することを示しています。これらの結果は、プロフェッショナルかつインタラクティブな環境において、スケーラブルで高品質なフォーリー音声合成のための制御可能でモジュール化されたソリューションとしてのFolAIの可能性を浮き彫りにしています。補足資料は、専用のデモページ(https://ispamm.github.io/FolAI)からアクセスできます。

要約(オリジナル)

Traditional sound design workflows rely on manual alignment of audio events to visual cues, as in Foley sound design, where everyday actions like footsteps or object interactions are recreated to match the on-screen motion. This process is time-consuming, difficult to scale, and lacks automation tools that preserve creative intent. Despite recent advances in vision-to-audio generation, producing temporally coherent and semantically controllable sound effects from video remains a major challenge. To address these limitations, we introduce FolAI, a two-stage generative framework that decouples the when and the what of sound synthesis, i.e., the temporal structure extraction and the semantically guided generation, respectively. In the first stage, we estimate a smooth control signal from the video that captures the motion intensity and rhythmic structure over time, serving as a temporal scaffold for the audio. In the second stage, a diffusion-based generative model produces sound effects conditioned both on this temporal envelope and on high-level semantic embeddings, provided by the user, that define the desired auditory content (e.g., material or action type). This modular design enables precise control over both timing and timbre, streamlining repetitive tasks while preserving creative flexibility in professional Foley workflows. Results on diverse visual contexts, such as footstep generation and action-specific sonorization, demonstrate that our model reliably produces audio that is temporally aligned with visual motion, semantically consistent with user intent, and perceptually realistic. These findings highlight the potential of FolAI as a controllable and modular solution for scalable, high-quality Foley sound synthesis in professional and interactive settings. Supplementary materials are accessible on our dedicated demo page at https://ispamm.github.io/FolAI.

arxiv情報

著者 Riccardo Fosco Gramaccioni,Christian Marinoni,Emilian Postolache,Marco Comunità,Luca Cosmo,Joshua D. Reiss,Danilo Comminiello
発行日 2025-05-05 16:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク