要約
我々は、テキストベースのビデオからビデオへの編集のための、新規かつ効率的なアプローチを紹介する。本アプローチの核となるのは、ビデオ間転送タスク用に調整された合成ペアビデオデータセットである。Pix2Pixの編集指示による画像転送にヒントを得て、このパラダイムをビデオ領域に適応させる。Prompt-to-Promptをビデオに拡張し、入力ビデオと編集されたビデオとのペアサンプルを効率的に生成する。これと並行して、サンプリング中にロングビデオサンプリング補正を導入し、バッチ間で一貫したロングビデオを保証する。私たちの方法は、Tune-A-Videoのような現在の方法を凌駕し、テキストベースの動画編集における実質的な進歩を予告し、さらなる探求と展開のためのエキサイティングな道を示唆している。
要約(オリジナル)
We introduce a novel and efficient approach for text-based video-to-video editing that eliminates the need for resource-intensive per-video-per-model finetuning. At the core of our approach is a synthetic paired video dataset tailored for video-to-video transfer tasks. Inspired by Instruct Pix2Pix’s image transfer via editing instruction, we adapt this paradigm to the video domain. Extending the Prompt-to-Prompt to videos, we efficiently generate paired samples, each with an input video and its edited counterpart. Alongside this, we introduce the Long Video Sampling Correction during sampling, ensuring consistent long videos across batches. Our method surpasses current methods like Tune-A-Video, heralding substantial progress in text-based video-to-video editing and suggesting exciting avenues for further exploration and deployment.
arxiv情報
著者 | Jiaxin Cheng,Tianjun Xiao,Tong He |
発行日 | 2023-12-01 11:41:34+00:00 |
arxivサイト | arxiv_id(pdf) |