Audio-Sync Video Generation with Multi-Stream Temporal Control

要約

オーディオは本質的に一時的であり、視覚的な世界と密接に同期されているため、制御可能なビデオ生成（映画など）の自然に整列した表現力のある制御信号となっています。
制御を超えて、オーディオをビデオに直接変換することは、豊かなオーディオの物語（ポッドキャストや歴史的な録音など）を理解して視覚化するために不可欠です。
ただし、既存のアプローチは、特に多様で複雑なオーディオタイプ全体にわたって、正確なオーディオビジュアル同期を備えた高品質のビデオを生成することに不足しています。
この作業では、オーディオシンクビデオ生成のための多用途のフレームワークであるMTVを紹介します。
MTVは、オーディオを音声、エフェクト、音楽トラックに明示的に分離し、それぞれリップモーション、イベントタイミング、視覚的なムードを解き放つ制御を可能にします。
フレームワークをサポートするために、高品質の映画のビデオとデミキスされたオーディオトラックを含むデータセットであるDemixをさらに発表します。
Demixは5つのオーバーラップサブセットに構造化されており、多様な生成シナリオのスケーラブルなマルチステージトレーニングを可能にします。
広範な実験は、MTVがビデオ品質、テキストビデオの一貫性、およびオーディオビデオアライメントにまたがる6つの標準メトリックで最先端のパフォーマンスを達成することを示しています。
プロジェクトページ：https：//hjzheng.net/projects/mtv/。

要約(オリジナル)

Audio is inherently temporal and closely synchronized with the visual world, making it a naturally aligned and expressive control signal for controllable video generation (e.g., movies). Beyond control, directly translating audio into video is essential for understanding and visualizing rich audio narratives (e.g., Podcasts or historical recordings). However, existing approaches fall short in generating high-quality videos with precise audio-visual synchronization, especially across diverse and complex audio types. In this work, we introduce MTV, a versatile framework for audio-sync video generation. MTV explicitly separates audios into speech, effects, and music tracks, enabling disentangled control over lip motion, event timing, and visual mood, respectively — resulting in fine-grained and semantically aligned video generation. To support the framework, we additionally present DEMIX, a dataset comprising high-quality cinematic videos and demixed audio tracks. DEMIX is structured into five overlapped subsets, enabling scalable multi-stage training for diverse generation scenarios. Extensive experiments demonstrate that MTV achieves state-of-the-art performance across six standard metrics spanning video quality, text-video consistency, and audio-video alignment. Project page: https://hjzheng.net/projects/MTV/.

arxiv情報

著者	Shuchen Weng,Haojie Zheng,Zheng Chang,Si Li,Boxin Shi,Xinlong Wang
発行日	2025-06-09 17:59:42+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Audio-Sync Video Generation with Multi-Stream Temporal Control

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー