Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners

要約

ビデオとオーディオのコンテンツ作成は、映画業界やプロのユーザーにとって中核的な技術として機能します。
最近、既存の普及ベースの手法はビデオとオーディオの生成に別々に取り組んでおり、これが学術界から産業界への技術移転を妨げています。
この取り組みでは、クロスビジュアルオーディオおよびジョイントビジュアルオーディオ生成用に慎重に設計された最適化ベースのフレームワークを使用して、ギャップを埋めることを目指しています。
既製のビデオまたはオーディオ生成モデルの強力な生成能力を観察します。
したがって、巨大なモデルをゼロからトレーニングする代わりに、既存の強力なモデルを共有の潜在表現空間で橋渡しすることを提案します。
具体的には、事前トレーニングされた ImageBind モデルを使用したマルチモダリティ潜在アライナーを提案します。
私たちの潜在アライナーは、推論時の拡散ノイズ除去プロセスをガイドする分類子ガイダンスと同様のコアを共有しています。
慎重に設計された最適化戦略と損失関数を通じて、ビデオとオーディオの共同生成、ビジュアル操作によるオーディオ生成、およびオーディオ操作によるビジュアル生成タスクにおけるこの方法の優れたパフォーマンスを示します。
プロジェクトの Web サイトは https://yzxing87.github.io/Seeing-and-Hearing/ にあります。

要約(オリジナル)

Video and audio content creation serves as the core technique for the movie industry and professional users. Recently, existing diffusion-based methods tackle video and audio generation separately, which hinders the technique transfer from academia to industry. In this work, we aim at filling the gap, with a carefully designed optimization-based framework for cross-visual-audio and joint-visual-audio generation. We observe the powerful generation ability of off-the-shelf video or audio generation models. Thus, instead of training the giant models from scratch, we propose to bridge the existing strong models with a shared latent representation space. Specifically, we propose a multimodality latent aligner with the pre-trained ImageBind model. Our latent aligner shares a similar core as the classifier guidance that guides the diffusion denoising process during inference time. Through carefully designed optimization strategy and loss functions, we show the superior performance of our method on joint video-audio generation, visual-steered audio generation, and audio-steered visual generation tasks. The project website can be found at https://yzxing87.github.io/Seeing-and-Hearing/

arxiv情報

著者 Yazhou Xing,Yingqing He,Zeyue Tian,Xintao Wang,Qifeng Chen
発行日 2024-02-27 17:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク