要約
テキスト間拡散モデルは、テキストの説明からコヒーレントなビデオクリップを生成する際に顕著な進歩を示しています。
ただし、これらのモデルの動き、構造、およびアイデンティティ表現の相互作用は、未調査のままです。
ここでは、自己関節クエリ機能(別名Q機能)が動き、構造、アイデンティティを同時に管理し、これらの表現が相互作用したときに発生する課題をどのように統治するかを調査します。
我々の分析では、Qはレイアウトだけでなく、除去中にQが被験者のアイデンティティにも強い影響を与え、アイデンティティを転送する副作用なしに動きを転送することを困難にしていることが明らかになりました。
この二重の役割を理解することで、クエリフィーチャインジェクション(Qインジェクション)を制御し、2つのアプリケーションを実証することができました。(1)既存のアプローチよりも20倍効率的なゼロショットモーション転送方法、(2)Qインジェクションがモーションフィデルさを促進する一貫したマルチショットビデオ生成のトレーニングフリーテクニック。
要約(オリジナル)
Text-to-video diffusion models have shown remarkable progress in generating coherent video clips from textual descriptions. However, the interplay between motion, structure, and identity representations in these models remains under-explored. Here, we investigate how self-attention query features (a.k.a. Q features) simultaneously govern motion, structure, and identity and examine the challenges arising when these representations interact. Our analysis reveals that Q affects not only layout, but that during denoising Q also has a strong effect on subject identity, making it hard to transfer motion without the side-effect of transferring identity. Understanding this dual role enabled us to control query feature injection (Q injection) and demonstrate two applications: (1) a zero-shot motion transfer method that is 20 times more efficient than existing approaches, and (2) a training-free technique for consistent multi-shot video generation, where characters maintain identity across multiple video shots while Q injection enhances motion fidelity.
arxiv情報
著者 | Yuval Atzmon,Rinon Gal,Yoad Tewel,Yoni Kasten,Gal Chechik |
発行日 | 2025-03-07 18:46:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google