要約
テキストガイドによるビデオ編集の最近の進歩により、外観編集 (例: 様式化) において有望な結果が得られています。
しかし、ビデオ編集と画像編集を区別する、時間次元でのビデオ モーション編集 (例: 食事から手を振るまで) については十分に研究されていません。
この研究では、反転生成フレームワーク内で事前にトレーニングされたテキストからビデオへのジェネレーターの力を利用することで、ビデオ モーションと外観編集の両方をサポートする、調整不要のフレームワークである UniEdit を紹介します。
ソースビデオコンテンツを保存しながらモーション編集を実現するために、時間的および空間的セルフアテンションレイヤーがそれぞれフレーム間およびフレーム内の依存関係をエンコードするという洞察に基づいて、補助的なモーション参照および再構築ブランチを導入して、テキストガイド付きモーションとソースを生成します。
それぞれ特徴があります。
取得された特徴は、時間的および空間的セルフ アテンション レイヤーを介してメインの編集パスに挿入されます。
広範な実験により、UniEdit がビデオ モーション編集とさまざまな外観編集シナリオをカバーし、最先端の方法を超えていることが実証されました。
私たちのコードは公開される予定です。
要約(オリジナル)
Recent advances in text-guided video editing have showcased promising results in appearance editing (e.g., stylization). However, video motion editing in the temporal dimension (e.g., from eating to waving), which distinguishes video editing from image editing, is underexplored. In this work, we present UniEdit, a tuning-free framework that supports both video motion and appearance editing by harnessing the power of a pre-trained text-to-video generator within an inversion-then-generation framework. To realize motion editing while preserving source video content, based on the insights that temporal and spatial self-attention layers encode inter-frame and intra-frame dependency respectively, we introduce auxiliary motion-reference and reconstruction branches to produce text-guided motion and source features respectively. The obtained features are then injected into the main editing path via temporal and spatial self-attention layers. Extensive experiments demonstrate that UniEdit covers video motion editing and various appearance editing scenarios, and surpasses the state-of-the-art methods. Our code will be publicly available.
arxiv情報
著者 | Jianhong Bai,Tianyu He,Yuchi Wang,Junliang Guo,Haoji Hu,Zuozhu Liu,Jiang Bian |
発行日 | 2024-02-20 17:52:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google