ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation

要約

テキストまたはビデオで条件付けられた現在のオーディオ生成は、オーディオをテキスト/ビデオのモダリティと調整することに焦点を当てています。
優れたアラインメントの結果にもかかわらず、これらのマルチモーダルフレームワークは、「画面上」の音が一時的に整列したオーディオ生成を必要とする複数のシーンを含む説得力のある映画ストーリーテリングに直接適用することはできません。
プロの映画制作に触発されたこのペーパーでは、自律型のサウンドディレクターエージェントが監督したオーディオ生成のためのマルチエージェントフレームワークを提案し、マルチモーダルLLMを通じて画面上およびオフスクリーンのサウンド生成のために他のエージェントとのマルチターン会話を引き付けます。
画面上のサウンド生成に対処するために、ビデオで話す人間を検出した後、解釈可能な時変オーディオコントロールシグナルを予測する予測モデルをトレーニングすることにより、意味的かつ時間的に同期した音をキャプチャします。
フォーリーアーティストは、作曲家や声優のエージェントと協力して協力し、一緒になって全体的な制作を補完するためにオフスクリーンサウンドを自律的に生成します。
各エージェントは、映画制作チームの役割と同様の特定の役割を引き受けます。
一時的にオーディオ言語モデルを接地するために、リール波では、テキスト/ビデオの条件が、該当する場合にビジュアルと同期された原子的な特定のサウンド生成命令に分解されます。
その結果、私たちのフレームワークは、映画から抽出されたビデオクリップを条件付けたリッチで関連するオーディオコンテンツを生成できます。

要約(オリジナル)

Current audio generation conditioned by text or video focuses on aligning audio with text/video modalities. Despite excellent alignment results, these multimodal frameworks still cannot be directly applied to compelling movie storytelling involving multiple scenes, where ‘on-screen’ sounds require temporally-aligned audio generation, while ‘off-screen’ sounds contribute to appropriate environment sounds accompanied by background music when applicable. Inspired by professional movie production, this paper proposes a multi-agentic framework for audio generation supervised by an autonomous Sound Director agent, engaging multi-turn conversations with other agents for on-screen and off-screen sound generation through multimodal LLM. To address on-screen sound generation, after detecting any talking humans in videos, we capture semantically and temporally synchronized sound by training a prediction model that forecasts interpretable, time-varying audio control signals: loudness, pitch, and timbre, which are used by a Foley Artist agent to condition a cross-attention module in the sound generation. The Foley Artist works cooperatively with the Composer and Voice Actor agents, and together they autonomously generate off-screen sound to complement the overall production. Each agent takes on specific roles similar to those of a movie production team. To temporally ground audio language models, in ReelWave, text/video conditions are decomposed into atomic, specific sound generation instructions synchronized with visuals when applicable. Consequently, our framework can generate rich and relevant audio content conditioned on video clips extracted from movies.

arxiv情報

著者 Zixuan Wang,Chi-Keung Tang,Yu-Wing Tai
発行日 2025-06-02 10:38:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD パーマリンク