Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation

要約

私たちは、さまざまなセマンティック クラスからの自然なオーディオ サンプルに基づいて、多様でリアルなビデオを生成するタスクを検討します。
このタスクでは、ビデオが入力オーディオとグローバルかつ時間的に位置合わせされる必要があります。グローバルには、入力オーディオは出力ビデオ全体と意味的に関連付けられ、時間的には、入力オーディオの各セグメントが出力ビデオの対応するセグメントに関連付けられます。
そのビデオ。
既存のテキスト条件付きビデオ生成モデルと事前トレーニングされたオーディオ エンコーダー モデルを利用します。
提案された方法は、軽量アダプター ネットワークに基づいており、オーディオベースの表現を、テキストからビデオへの生成モデルで予期される入力表現にマッピングすることを学習します。
そのため、テキスト、オーディオ、そして私たちが確認できる限り初めて、テキストとオーディオの両方を条件としたビデオ生成も可能になります。
私たちは、オーディオビデオサンプルの重要な意味的多様性を実証する 3 つのデータセットでこの方法を広範囲に検証し、さらに、生成されたビデオと入力オーディオサンプルの整合性を評価するための新しい評価指標 (AV-Align) を提案します。
AV-Align は、両方のモダリティにおけるエネルギー ピークの検出と比較に基づいています。
最近の最先端のアプローチと比較して、私たちの方法は、内容と時間軸の両方に関して、入力音声とよりよく一致するビデオを生成します。
また、私たちの方法で生成されたビデオがより高い視覚的品質を示し、より多様であることも示します。

要約(オリジナル)

We consider the task of generating diverse and realistic videos guided by natural audio samples from a wide variety of semantic classes. For this task, the videos are required to be aligned both globally and temporally with the input audio: globally, the input audio is semantically associated with the entire output video, and temporally, each segment of the input audio is associated with a corresponding segment of that video. We utilize an existing text-conditioned video generation model and a pre-trained audio encoder model. The proposed method is based on a lightweight adaptor network, which learns to map the audio-based representation to the input representation expected by the text-to-video generation model. As such, it also enables video generation conditioned on text, audio, and, for the first time as far as we can ascertain, on both text and audio. We validate our method extensively on three datasets demonstrating significant semantic diversity of audio-video samples and further propose a novel evaluation metric (AV-Align) to assess the alignment of generated videos with input audio samples. AV-Align is based on the detection and comparison of energy peaks in both modalities. In comparison to recent state-of-the-art approaches, our method generates videos that are better aligned with the input sound, both with respect to content and temporal axis. We also show that videos produced by our method present higher visual quality and are more diverse.

arxiv情報

著者 Guy Yariv,Itai Gat,Sagie Benaim,Lior Wolf,Idan Schwartz,Yossi Adi
発行日 2023-09-28 13:26:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク