VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models

要約

最近の途方もない進歩にもかかわらず、生成ビデオモデルは、現実世界の動き、ダイナミクス、物理学を捉えるのに依然として苦労しています。
この制限は、従来のピクセル再構成目標から生じることを示します。これは、モーションコヒーレンスを犠牲にして外観の忠実度をモデル化するバイアスを偏らせます。
これに対処するために、モデルに共同外観モーション表現を学習するよう奨励することにより、ビデオジェネレーターの前に効果的な動きを植え付ける新しいフレームワークであるVideoJamを紹介します。
VideoJamは、2つの補完的なユニットで構成されています。
トレーニング中に、生成されたピクセルと、単一の学習表現からの対応する動きの両方を予測する目的を拡張します。
推論中に、動的ガイダンス信号としてモデル自身の進化するモーション予測を活用することにより、生成をコヒーレント運動に向けて導くメカニズムを導入します。
特に、当社のフレームワークは、最小限の適応で任意のビデオモデルに適用でき、トレーニングデータやモデルのスケーリングを変更する必要はありません。
VideoJamは、動きの一貫性の最先端のパフォーマンスを達成し、非常に競争力のある独自のモデルを上回り、世代の視覚的品質を認識していることも高めます。
これらの調査結果は、外観と動きは補完的であり、効果的に統合されると、ビデオ生成の視覚的品質と一貫性の両方を強化することを強調しています。
プロジェクトのウェブサイト:https://hila-chefer.github.io/videojam-paper.github.io/

要約(オリジナル)

Despite tremendous recent progress, generative video models still struggle to capture real-world motion, dynamics, and physics. We show that this limitation arises from the conventional pixel reconstruction objective, which biases models toward appearance fidelity at the expense of motion coherence. To address this, we introduce VideoJAM, a novel framework that instills an effective motion prior to video generators, by encouraging the model to learn a joint appearance-motion representation. VideoJAM is composed of two complementary units. During training, we extend the objective to predict both the generated pixels and their corresponding motion from a single learned representation. During inference, we introduce Inner-Guidance, a mechanism that steers the generation toward coherent motion by leveraging the model’s own evolving motion prediction as a dynamic guidance signal. Notably, our framework can be applied to any video model with minimal adaptations, requiring no modifications to the training data or scaling of the model. VideoJAM achieves state-of-the-art performance in motion coherence, surpassing highly competitive proprietary models while also enhancing the perceived visual quality of the generations. These findings emphasize that appearance and motion can be complementary and, when effectively integrated, enhance both the visual quality and the coherence of video generation. Project website: https://hila-chefer.github.io/videojam-paper.github.io/

arxiv情報

著者 Hila Chefer,Uriel Singer,Amit Zohar,Yuval Kirstain,Adam Polyak,Yaniv Taigman,Lior Wolf,Shelly Sheynin
発行日 2025-05-26 13:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク