AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

要約

ビデオ間の編集には、ソース ビデオを追加のコントロール (テキスト プロンプト、件名、スタイルなど) とともに編集して、ソース ビデオおよび提供されたコントロールと一致する新しいビデオを生成することが含まれます。
従来の方法は特定の編集タイプに制限されており、幅広いユーザーの要求を満たす能力が制限されていました。
このペーパーでは、ビデオ編集を 2 つの主要なステップに簡素化するように設計された新しいトレーニング不要のフレームワークである AnyV2V を紹介します。(1) 既製の画像編集モデル (InstructPix2Pix、InstantID など) を使用して最初のフレームを変更する
、(2)DDIM反転および特徴注入のために既存の画像からビデオへの生成モデル(例えば、I2VGen−XL)を利用する。
最初の段階では、AnyV2V は既存の画像編集ツールをプラグインして、広範なビデオ編集タスクをサポートできます。
従来のプロンプトベースの編集方法を超えて、AnyV2V は、以前の方法では実現できなかった、参照ベースのスタイル転送、主題駆動編集、アイデンティティ操作などの新しいビデオ編集タスクもサポートできます。
第 2 段階では、AnyV2V は既存の画像からビデオへのモデルをプラグインして DDIM 反転と中間特徴挿入を実行し、ソース ビデオとの外観と動きの一貫性を維持できます。
プロンプトベースの編集では、AnyV2V が以前の最良のアプローチよりも、プロンプトの調整に関しては 35%、人間の好みに関しては 25% 優れていることがわかりました。
3 つの新しいタスクに関して、AnyV2V も高い成功率を達成することを示します。
AnyV2V は、急速に進化する画像編集方法をシームレスに統合できるため、今後も成長し続けると私たちは信じています。
このような互換性は、AnyV2V の汎用性を高め、多様なユーザーの要求に応えるのに役立ちます。

要約(オリジナル)

Video-to-video editing involves editing a source video along with additional control (such as text prompts, subjects, or styles) to generate a new video that aligns with the source video and the provided control. Traditional methods have been constrained to certain editing types, limiting their ability to meet the wide range of user demands. In this paper, we introduce AnyV2V, a novel training-free framework designed to simplify video editing into two primary steps: (1) employing an off-the-shelf image editing model (e.g. InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion and feature injection. In the first stage, AnyV2V can plug in any existing image editing tools to support an extensive array of video editing tasks. Beyond the traditional prompt-based editing methods, AnyV2V also can support novel video editing tasks, including reference-based style transfer, subject-driven editing, and identity manipulation, which were unattainable by previous methods. In the second stage, AnyV2V can plug in any existing image-to-video models to perform DDIM inversion and intermediate feature injection to maintain the appearance and motion consistency with the source video. On the prompt-based editing, we show that AnyV2V can outperform the previous best approach by 35\% on prompt alignment, and 25\% on human preference. On the three novel tasks, we show that AnyV2V also achieves a high success rate. We believe AnyV2V will continue to thrive due to its ability to seamlessly integrate the fast-evolving image editing methods. Such compatibility can help AnyV2V to increase its versatility to cater to diverse user demands.

arxiv情報

著者 Max Ku,Cong Wei,Weiming Ren,Harry Yang,Wenhu Chen
発行日 2024-03-22 02:16:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク