DragVideo: Interactive Drag-style Video Editing

要約

ビデオ生成モデルは、写真のようにリアルなビデオを生成する優れた能力を示しています。
ただし、ビデオを正確に制御 (または編集) する方法は依然として困難な課題です。
主な問題は次のとおりです。1) 編集時に直接かつ正確なユーザー制御を実行する方法。
2) 編集内容に見苦しい歪みやアーティファクトを発生させずに、形状、表現、レイアウトの変更などの編集を実行する方法。
3) 編集後にビデオの時空間的一貫性を維持する方法。
上記の問題に対処するために、一般的なドラッグ スタイルのビデオ編集フレームワークである DragVideo を提案します。
DragGAN からインスピレーションを得た DragVideo は、ビデオレベルのドラッグ目的関数によるドラッグ命令に従ってノイズの多いビデオ潜在を更新することで望ましい制御を与えるドラッグスタイルのビデオ潜在最適化手法を提案することで、問題 1) と 2) に対処します。
編集結果が時空間的に一貫していることを保証するために、ビデオ拡散モデルをサンプル固有の LoRA および DragVideo の相互セルフアテンションと統合することにより、問題 3) を修正します。
また、ドラッグ スタイルのビデオ編集の一連のテスト例を紹介し、モーション、スケルトン編集など、さまざまな困難な編集タスクにわたって広範な実験を実施します。これは、DragVideo がユーザーの意図に忠実で直感的にビデオを編集できることを強調します。
時空間の一貫性を維持しながら、歪みやアーティファクトがほとんど目立たない方法で。
従来のプロンプトベースのビデオ編集は前の 2 つを実行できず、画像を直接適用するドラッグ編集は最後に失敗しますが、DragVideo の多用途性と汎用性は強調されています。
Github リンク: https://github.com/RickySkywalker/DragVideo-Official。

要約(オリジナル)

Video generation models have shown their superior ability to generate photo-realistic video. However, how to accurately control (or edit) the video remains a formidable challenge. The main issues are: 1) how to perform direct and accurate user control in editing; 2) how to execute editings like changing shape, expression, and layout without unsightly distortion and artifacts to the edited content; and 3) how to maintain spatio-temporal consistency of video after editing. To address the above issues, we propose DragVideo, a general drag-style video editing framework. Inspired by DragGAN, DragVideo addresses issues 1) and 2) by proposing the drag-style video latent optimization method which gives desired control by updating noisy video latent according to drag instructions through video-level drag objective function. We amend issue 3) by integrating the video diffusion model with sample-specific LoRA and Mutual Self-Attention in DragVideo to ensure the edited result is spatio-temporally consistent. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion, skeleton editing, etc, underscoring DragVideo can edit video in an intuitive, faithful to the user’s intention manner, with nearly unnoticeable distortion and artifacts, while maintaining spatio-temporal consistency. While traditional prompt-based video editing fails to do the former two and directly applying image drag editing fails in the last, DragVideo’s versatility and generality are emphasized. Github link: https://github.com/RickySkywalker/DragVideo-Official.

arxiv情報

著者 Yufan Deng,Ruida Wang,Yuhao Zhang,Yu-Wing Tai,Chi-Keung Tang
発行日 2024-03-29 14:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク