Structure and Content-Guided Video Synthesis with Diffusion Models

要約

テキストに基づく生成拡散モデルは、強力な画像生成・編集ツールの鍵である。しかし、既存の映像の構造を保持したまま内容を編集する現在のアプローチは、すべての入力に対して高価な再トレーニングを必要とするか、フレーム間で画像編集の誤りを生じやすい伝搬に依存している。本論文では、希望する出力に関する視覚的またはテキスト的な記述に基づいて動画を編集する、構造と内容に基づく動画拡散モデルを提示する。ユーザが提供するコンテンツ編集と構造表現との間の矛盾は、2つの側面の分離が不十分であるために発生する。この問題を解決するため、我々は、様々な詳細度を持つ単眼的奥行き推定値に対する学習により、構造とコンテンツの忠実度を制御することを示す。このモデルでは、画像と動画を組み合わせて学習することで、新しいガイダンス手法による時間的整合性の明示的な制御を実現している。我々の実験では、出力特性に対するきめ細かい制御、少数の参照画像に基づくカスタマイズ、我々のモデルによる結果に対するユーザーの強い好みなど、様々な成功が実証された。

要約(オリジナル)

Text-guided generative diffusion models unlock powerful image creation and editing tools. While these have been extended to video generation, current approaches that edit the content of existing footage while retaining structure require expensive re-training for every input or rely on error-prone propagation of image edits across frames. In this work, we present a structure and content-guided video diffusion model that edits videos based on visual or textual descriptions of the desired output. Conflicts between user-provided content edits and structure representations occur due to insufficient disentanglement between the two aspects. As a solution, we show that training on monocular depth estimates with varying levels of detail provides control over structure and content fidelity. Our model is trained jointly on images and videos which also exposes explicit control of temporal consistency through a novel guidance method. Our experiments demonstrate a wide variety of successes; fine-grained control over output characteristics, customization based on a few reference images, and a strong user preference towards results by our model.

arxiv情報

著者 Patrick Esser,Johnathan Chiu,Parmida Atighehchian,Jonathan Granskog,Anastasis Germanidis
発行日 2023-02-06 18:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク