Consistent Video-to-Video Transfer Using Synthetic Dataset

要約

テキストベースのビデオ間編集のための斬新で効率的なアプローチを導入し、リソースを大量に消費するビデオごと、モデルごとの微調整の必要性を排除します。
私たちのアプローチの中核となるのは、ビデオ間の転送タスクに合わせて調整された合成ペアビデオ データセットです。
Instruct Pix2Pix の編集命令による画像転送からインスピレーションを得て、このパラダイムをビデオ ドメインに適応させました。
Prompt-to-Prompt をビデオに拡張して、入力ビデオとその編集済みの対応するサンプルをそれぞれ含むペアのサンプルを効率的に生成します。
これに加えて、サンプリング中に長いビデオのサンプリング補正を導入し、バッチ間で一貫した長いビデオを保証します。
私たちの方法は、Tune-A-Video のような現在の方法を上回り、テキストベースのビデオからビデオへの編集における大幅な進歩を予告し、さらなる探索と展開のための刺激的な道を示唆しています。

要約(オリジナル)

We introduce a novel and efficient approach for text-based video-to-video editing that eliminates the need for resource-intensive per-video-per-model finetuning. At the core of our approach is a synthetic paired video dataset tailored for video-to-video transfer tasks. Inspired by Instruct Pix2Pix’s image transfer via editing instruction, we adapt this paradigm to the video domain. Extending the Prompt-to-Prompt to videos, we efficiently generate paired samples, each with an input video and its edited counterpart. Alongside this, we introduce the Long Video Sampling Correction during sampling, ensuring consistent long videos across batches. Our method surpasses current methods like Tune-A-Video, heralding substantial progress in text-based video-to-video editing and suggesting exciting avenues for further exploration and deployment.

arxiv情報

著者 Jiaxin Cheng,Tianjun Xiao,Tong He
発行日 2023-11-29 15:21:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク