MagicEdit: High-Fidelity and Temporally Coherent Video Editing

要約

このレポートでは、テキストガイドによるビデオ編集タスクに対する驚くほどシンプルかつ効果的なソリューションである MagicEdit を紹介します。
私たちは、トレーニング中にコンテンツ、構造、モーション信号の学習を明示的に解きほぐすことで、高忠実度で時間的にコヒーレントなビデオ間の変換を実現できることを発見しました。
これは、単一のフレームワーク内で外観と時間表現の両方を共同でモデル化しようとするほとんどの既存の方法とは矛盾しており、フレームごとの品質の低下につながると我々は主張しています。
そのシンプルさにもかかわらず、MagicEdit がビデオのスタイル化、ローカル編集、ビデオ MagicMix、ビデオ アウトペイントなどのさまざまなダウンストリーム ビデオ編集タスクをサポートしていることを示します。

要約(オリジナル)

In this report, we present MagicEdit, a surprisingly simple yet effective solution to the text-guided video editing task. We found that high-fidelity and temporally coherent video-to-video translation can be achieved by explicitly disentangling the learning of content, structure and motion signals during training. This is in contradict to most existing methods which attempt to jointly model both the appearance and temporal representation within a single framework, which we argue, would lead to degradation in per-frame quality. Despite its simplicity, we show that MagicEdit supports various downstream video editing tasks, including video stylization, local editing, video-MagicMix and video outpainting.

arxiv情報

著者 Jun Hao Liew,Hanshu Yan,Jianfeng Zhang,Zhongcong Xu,Jiashi Feng
発行日 2023-08-28 17:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク