VidToMe: Video Token Merging for Zero-Shot Video Editing

要約

拡散モデルは高品質の画像の生成において大幅な進歩を遂げましたが、時間的な動きの複雑さのため、ビデオ生成への応用は依然として困難です。
ゼロショット ビデオ編集は、事前トレーニングされた画像拡散モデルを利用してソース ビデオを新しいビデオに変換するソリューションを提供します。
それにもかかわらず、既存の方法では、厳密な時間的一貫性と効率的なメモリ消費を維持するのに苦労しています。
この研究では、フレーム間でセルフ アテンション トークンをマージすることで、生成されたビデオの時間的一貫性を高める新しいアプローチを提案します。
フレーム全体で時間的に冗長なトークンを調整して圧縮することにより、私たちの方法は時間的コヒーレンスを改善し、セルフアテンション計算におけるメモリ消費を削減します。
マージ戦略は、フレーム間の時間的対応に従ってトークンを照合および整列させ、生成されたビデオ フレームの自然な時間的一貫性を促進します。
ビデオ処理の複雑さを管理するために、ビデオをチャンクに分割し、チャンク内のローカル トークン マージとチャンク間のグローバル トークン マージを開発して、短期的なビデオの継続性と長期的なコンテンツの一貫性の両方を保証します。
当社のビデオ編集アプローチは、画像編集の進歩をビデオ編集にシームレスに拡張し、最先端の方法と比較して時間的一貫性において好ましい結果をもたらします。

要約(オリジナル)

Diffusion models have made significant advances in generating high-quality images, but their application to video generation has remained challenging due to the complexity of temporal motion. Zero-shot video editing offers a solution by utilizing pre-trained image diffusion models to translate source videos into new ones. Nevertheless, existing methods struggle to maintain strict temporal consistency and efficient memory consumption. In this work, we propose a novel approach to enhance temporal consistency in generated videos by merging self-attention tokens across frames. By aligning and compressing temporally redundant tokens across frames, our method improves temporal coherence and reduces memory consumption in self-attention computations. The merging strategy matches and aligns tokens according to the temporal correspondence between frames, facilitating natural temporal consistency in generated video frames. To manage the complexity of video processing, we divide videos into chunks and develop intra-chunk local token merging and inter-chunk global token merging, ensuring both short-term video continuity and long-term content consistency. Our video editing approach seamlessly extends the advancements in image editing to video editing, rendering favorable results in temporal consistency over state-of-the-art methods.

arxiv情報

著者 Xirui Li,Chao Ma,Xiaokang Yang,Ming-Hsuan Yang
発行日 2023-12-19 13:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク