Video Diffusion Models are Training-free Motion Interpreter and Controller

要約

ビデオ生成の主な目的は、フレーム全体にわたる本物のカスタマイズされたモーションをモデル化することであり、モーションの理解と制御が重要なトピックになります。
ビデオモーションに関する普及ベースの研究のほとんどは、トレーニングベースのパラダイムによるモーションのカスタマイズに焦点を当てていますが、これには多大なトレーニングリソースが必要であり、多様なモデルの再トレーニングが必要です。
重要なことは、これらのアプローチは、ビデオ拡散モデルがその特徴内でクロスフレームの動き情報をどのようにエンコードするかを調査しておらず、その有効性における解釈可能性と透明性に欠けています。
この質問に答えるために、このホワイトペーパーでは、ビデオ拡散モデルのモーション認識機能を理解し、位置特定し、操作するための新しい視点を紹介します。
主成分分析 (PCA) を使用した分析を通じて、私たちの研究は、堅牢なモーション認識機能がビデオ拡散モデルにすでに存在していることを明らかにしました。
コンテンツ相関情報を排除し、モーション チャネルをフィルタリングすることにより、新しい MOtion 機能 (MOFT) を提供します。
MOFT は、明確な解釈可能性、トレーニングを必要としない抽出機能、多様なアーキテクチャにわたる汎用性を備えた包括的なモーション情報をエンコードする機能など、一連の明確な利点を提供します。
MOFT を活用して、トレーニング不要の新しいビデオ モーション コントロール フレームワークを提案します。
私たちの手法は、自然で忠実な動きの生成において競争力のあるパフォーマンスを実証し、アーキテクチャに依存しない洞察とさまざまな下流タスクへの適用性を提供します。

要約(オリジナル)

Video generation primarily aims to model authentic and customized motion across frames, making understanding and controlling the motion a crucial topic. Most diffusion-based studies on video motion focus on motion customization with training-based paradigms, which, however, demands substantial training resources and necessitates retraining for diverse models. Crucially, these approaches do not explore how video diffusion models encode cross-frame motion information in their features, lacking interpretability and transparency in their effectiveness. To answer this question, this paper introduces a novel perspective to understand, localize, and manipulate motion-aware features in video diffusion models. Through analysis using Principal Component Analysis (PCA), our work discloses that robust motion-aware feature already exists in video diffusion models. We present a new MOtion FeaTure (MOFT) by eliminating content correlation information and filtering motion channels. MOFT provides a distinct set of benefits, including the ability to encode comprehensive motion information with clear interpretability, extraction without the need for training, and generalizability across diverse architectures. Leveraging MOFT, we propose a novel training-free video motion control framework. Our method demonstrates competitive performance in generating natural and faithful motion, providing architecture-agnostic insights and applicability in a variety of downstream tasks.

arxiv情報

著者 Zeqi Xiao,Yifan Zhou,Shuai Yang,Xingang Pan
発行日 2024-05-23 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク