ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing

要約

このペーパーでは、テキスト駆動型のビデオ編集のための新しい方法である ControlVideo を紹介します。
ControlVideo は、テキストから画像への拡散モデルと ControlNet の機能を活用して、ソース ビデオの構造を維持しながら、特定のテキストと一致するビデオの忠実性と時間的一貫性を強化することを目指しています。
これは、エッジ マップなどの追加条件を組み込み、キーフレームを微調整し、慎重に設計された戦略を使用してソース ビデオとテキストのペアに一時的に注目することで実現されます。
ControlVideo の設計の詳細な調査は、ビデオ拡散モデルのワンショット チューニングに関する将来の研究に情報を提供するために行われます。
ControlVideo は、テキスト プロンプトと一致しながらも、忠実性と一貫性の点で、定量的にはさまざまな競合ベースラインを上回っています。
さらに、視覚的なリアリズムと忠実度が高いビデオを配信します。
ソース コンテンツに基づいて、さまざまなレベルのソース ビデオ情報を含むコントロールを利用する柔軟性と、複数のコントロールの組み合わせの可能性を示します。
プロジェクト ページは \href{https://ml.cs.tsinghua.edu.cn/controlvideo/}{https://ml.cs.tsinghua.edu.cn/controlvideo/} で利用できます。

要約(オリジナル)

In this paper, we present ControlVideo, a novel method for text-driven video editing. Leveraging the capabilities of text-to-image diffusion models and ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency of videos that align with a given text while preserving the structure of the source video. This is achieved by incorporating additional conditions such as edge maps, fine-tuning the key-frame and temporal attention on the source video-text pair with carefully designed strategies. An in-depth exploration of ControlVideo’s design is conducted to inform future research on one-shot tuning video diffusion models. Quantitatively, ControlVideo outperforms a range of competitive baselines in terms of faithfulness and consistency while still aligning with the textual prompt. Additionally, it delivers videos with high visual realism and fidelity w.r.t. the source content, demonstrating flexibility in utilizing controls containing varying degrees of source video information, and the potential for multiple control combinations. The project page is available at \href{https://ml.cs.tsinghua.edu.cn/controlvideo/}{https://ml.cs.tsinghua.edu.cn/controlvideo/}.

arxiv情報

著者 Min Zhao,Rongzhen Wang,Fan Bao,Chongxuan Li,Jun Zhu
発行日 2023-05-26 17:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク