要約
テキスト間拡散モデルは、テキストの説明からコヒーレントなビデオクリップを生成する際に顕著な進歩を示しています。
ただし、これらのモデルの動き、構造、およびアイデンティティ表現の相互作用は、未調査のままです。
ここでは、自己関節クエリ(Q)が動き、構造、およびアイデンティティを同時に管理し、これらの表現が相互作用したときに生じる課題を調べる方法を調査します。
我々の分析では、Qはレイアウトだけでなく、除去中にQが被験者のアイデンティティにも強い影響を与え、アイデンティティを転送する副作用なしに動きを転送することを困難にしていることが明らかになりました。
この二重の役割を理解することで、クエリフィーチャインジェクション(Qインジェクション)を制御し、2つのアプリケーションを実証することができました。(1)ゼロショットモーション転送方法 – Videocrafter2およびWAN 2.1で実装された – これは既存のアプローチよりも10倍効率的です。
要約(オリジナル)
Text-to-video diffusion models have shown remarkable progress in generating coherent video clips from textual descriptions. However, the interplay between motion, structure, and identity representations in these models remains under-explored. Here, we investigate how self-attention query (Q) features simultaneously govern motion, structure, and identity and examine the challenges arising when these representations interact. Our analysis reveals that Q affects not only layout, but that during denoising Q also has a strong effect on subject identity, making it hard to transfer motion without the side-effect of transferring identity. Understanding this dual role enabled us to control query feature injection (Q injection) and demonstrate two applications: (1) a zero-shot motion transfer method – implemented with VideoCrafter2 and WAN 2.1 – that is 10 times more efficient than existing approaches, and (2) a training-free technique for consistent multi-shot video generation, where characters maintain identity across multiple video shots while Q injection enhances motion fidelity.
arxiv情報
著者 | Yuval Atzmon,Rinon Gal,Yoad Tewel,Yoni Kasten,Gal Chechik |
発行日 | 2025-05-22 17:41:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google