VCoME: Verbal Video Composition with Multimodal Editing Effects

要約

ボイスオーバーやテキストオーバーレイを特徴とする言葉によるビデオは、価値あるコンテンツを提供するが、特に、明瞭さと視覚的なアピールを強化するための編集効果を取り入れる場合、構成に大きな課題がある。本論文では、編集効果を用いた口頭ビデオの構成という新しい課題を紹介する。この課題は、テキスト、ビジュアル、オーディオの各カテゴリーにまたがるマルチモーダルな編集効果を統合することで、首尾一貫した視覚的に魅力的な口頭ビデオを生成することを目的としている。これを達成するために、我々は一般に公開されているソースからビデオエフェクト合成の大規模なデータセットをキュレートする。そして、このタスクを生成問題として定式化し、言語コンテンツにおける適切な位置の特定と、これらの位置に対する編集効果の推薦を含む。このタスクに対処するために、ビデオ合成のための編集効果を生成する大規模なマルチモーダルモデルを採用する一般的なフレームワークであるVCoMEを提案する。具体的には、VCoMEはマルチモーダルビデオコンテキストを取り込み、言語コンテンツ内のどこにエフェクトを適用するか、また各ポジションにどのエフェクトが最も適切かを自己回帰的に出力する。VCoMEはまた、プロンプトベースの合成密度とスタイルの制御をサポートし、多様なアプリケーションに対応する実質的な柔軟性を提供する。広範な量的および質的評価を通じて、VCoMEの有効性を明確に実証している。包括的なユーザー・スタディにより、VCoMEは、プロのエディターより85倍効率的でありながら、プロ品質のビデオを作成できることが示された。

要約(オリジナル)

Verbal videos, featuring voice-overs or text overlays, provide valuable content but present significant challenges in composition, especially when incorporating editing effects to enhance clarity and visual appeal. In this paper, we introduce the novel task of verbal video composition with editing effects. This task aims to generate coherent and visually appealing verbal videos by integrating multimodal editing effects across textual, visual, and audio categories. To achieve this, we curate a large-scale dataset of video effects compositions from publicly available sources. We then formulate this task as a generative problem, involving the identification of appropriate positions in the verbal content and the recommendation of editing effects for these positions. To address this task, we propose VCoME, a general framework that employs a large multimodal model to generate editing effects for video composition. Specifically, VCoME takes in the multimodal video context and autoregressively outputs where to apply effects within the verbal content and which effects are most appropriate for each position. VCoME also supports prompt-based control of composition density and style, providing substantial flexibility for diverse applications. Through extensive quantitative and qualitative evaluations, we clearly demonstrate the effectiveness of VCoME. A comprehensive user study shows that our method produces videos of professional quality while being 85$\times$ more efficient than professional editors.

arxiv情報

著者 Weibo Gong,Xiaojie Jin,Xin Li,Dongliang He,Xinglong Wu
発行日 2024-07-05 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM パーマリンク