TAVGBench: Benchmarking Text to Audible-Video Generation

要約

Text to Audible-Video Generation (TAVG) タスクには、テキストの説明に基づいて音声を伴うビデオを生成することが含まれます。
これを達成するには、オーディオ要素とビデオ要素の両方を巧みに調整する必要があります。
この分野の研究をサポートするために、当社は包括的な Text to Audible-Video Generation Benchmark (TAVGBench) を開発しました。このベンチマークには、総再生時間 11.8 千時間の 170 万以上のクリップが含まれています。
私たちは、各可聴ビデオにオーディオとビデオの両方のコンテンツの詳細な説明が含まれるようにする自動注釈パイプラインを提案します。
また、生成されたオーディオ モダリティとビデオ モダリティの間の整合性を定量的に測定するために、Audio-Visual Harmoni スコア (AVHScore) も導入します。
さらに、TAVDiffusion と呼ばれる TAVG のベースライン モデルを紹介します。これは、2 つのストリームの潜在拡散モデルを使用して、この分野のさらなる研究の基本的な出発点を提供します。
クロスアテンションとコントラスト学習を採用することで、オーディオとビデオの調整を実現します。
TAVGBench での広範な実験と評価を通じて、従来の指標と提案された指標の両方の下で、提案したモデルの有効性を実証しました。

要約(オリジナル)

The Text to Audible-Video Generation (TAVG) task involves generating videos with accompanying audio based on text descriptions. Achieving this requires skillful alignment of both audio and video elements. To support research in this field, we have developed a comprehensive Text to Audible-Video Generation Benchmark (TAVGBench), which contains over 1.7 million clips with a total duration of 11.8 thousand hours. We propose an automatic annotation pipeline to ensure each audible video has detailed descriptions for both its audio and video contents. We also introduce the Audio-Visual Harmoni score (AVHScore) to provide a quantitative measure of the alignment between the generated audio and video modalities. Additionally, we present a baseline model for TAVG called TAVDiffusion, which uses a two-stream latent diffusion model to provide a fundamental starting point for further research in this area. We achieve the alignment of audio and video by employing cross-attention and contrastive learning. Through extensive experiments and evaluations on TAVGBench, we demonstrate the effectiveness of our proposed model under both conventional metrics and our proposed metrics.

arxiv情報

著者 Yuxin Mao,Xuyang Shen,Jing Zhang,Zhen Qin,Jinxing Zhou,Mochu Xiang,Yiran Zhong,Yuchao Dai
発行日 2024-04-22 17:36:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク