DIVE: Taming DINO for Subject-Driven Video Editing

要約

画像の生成と編集における普及モデルの成功に基づいて、ビデオ編集が最近大きな注目を集めています。
ただし、時間的な一貫性と動きの調整を維持することは依然として困難です。
これらの問題に対処するために、この文書では、ターゲット テキスト プロンプトまたは特定のアイデンティティを持つ参照画像のいずれかに条件付けされたソース ビデオでの主題主導の編集を容易にするように設計されたフレームワークである DINO ガイド付きビデオ編集 (DIVE) を提案します。
DIVE の核心は、編集プロセスをガイドするための暗黙的な対応関係として、事前トレーニング済み DINOv2 モデルから抽出された強力なセマンティック機能を活用することにあります。
具体的には、時間的な動きの一貫性を確保するために、DIVE は DINO 機能を使用してソース ビデオの動きの軌跡と位置を合わせます。
現実世界の多様なビデオに対する広範な実験により、当社のフレームワークが堅牢なモーションの一貫性を備えた高品質の編集結果を達成できることが実証され、ビデオ編集に貢献する DINO の可能性が強調されています。
被写体を正確に編集するために、DIVE は参照画像の DINO 機能を事前トレーニング済みのテキストから画像へのモデルに組み込んで低ランク適応 (LoRA) を学習し、ターゲットの被写体のアイデンティティを効果的に登録します。
プロジェクトページ: https://dino-video-editing.github.io

要約(オリジナル)

Building on the success of diffusion models in image generation and editing, video editing has recently gained substantial attention. However, maintaining temporal consistency and motion alignment still remains challenging. To address these issues, this paper proposes DINO-guided Video Editing (DIVE), a framework designed to facilitate subject-driven editing in source videos conditioned on either target text prompts or reference images with specific identities. The core of DIVE lies in leveraging the powerful semantic features extracted from a pretrained DINOv2 model as implicit correspondences to guide the editing process. Specifically, to ensure temporal motion consistency, DIVE employs DINO features to align with the motion trajectory of the source video. Extensive experiments on diverse real-world videos demonstrate that our framework can achieve high-quality editing results with robust motion consistency, highlighting the potential of DINO to contribute to video editing. For precise subject editing, DIVE incorporates the DINO features of reference images into a pretrained text-to-image model to learn Low-Rank Adaptations (LoRAs), effectively registering the target subject’s identity. Project page: https://dino-video-editing.github.io

arxiv情報

著者 Yi Huang,Wei Xiong,He Zhang,Chaoqi Chen,Jianzhuang Liu,Mingfu Yan,Shifeng Chen
発行日 2024-12-04 14:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク