Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer

要約

我々は、入力ビデオのモーションとシーンのレイアウトを維持しながら、ターゲット オブジェクトとシーンを説明する入力テキスト プロンプトに準拠するビデオを合成する、テキスト駆動のモーション転送のための新しい方法を提案します。
従来の方法は、同じまたは密接に関連したオブジェクト カテゴリ内の 2 つのオブジェクト間で動作を転送することに限定されており、限られた領域 (たとえば、人間) に適用できます。
この研究では、ターゲット オブジェクトとソース オブジェクトの形状と詳細な動作特性が大幅に異なる、非常に困難な設定を検討します (例: 飛び跳ねる犬をイルカに変換する)。
この目的を達成するために、事前にトレーニングされ固定されたテキストからビデオへの拡散モデルを活用し、生成事前分布とモーション事前分布を提供します。
私たちの方法の柱は、モデルから直接導出された新しい時空間特徴損失です。
この損失により、生成プロセスは入力ビデオの全体的な動きを維持しながら、形状や細かい動きの特徴に関してターゲット オブジェクトに準拠するようになります。

要約(オリジナル)

We present a new method for text-driven motion transfer – synthesizing a video that complies with an input text prompt describing the target objects and scene while maintaining an input video’s motion and scene layout. Prior methods are confined to transferring motion across two subjects within the same or closely related object categories and are applicable for limited domains (e.g., humans). In this work, we consider a significantly more challenging setting in which the target and source objects differ drastically in shape and fine-grained motion characteristics (e.g., translating a jumping dog into a dolphin). To this end, we leverage a pre-trained and fixed text-to-video diffusion model, which provides us with generative and motion priors. The pillar of our method is a new space-time feature loss derived directly from the model. This loss guides the generation process to preserve the overall motion of the input video while complying with the target object in terms of shape and fine-grained motion traits.

arxiv情報

著者 Danah Yatim,Rafail Fridman,Omer Bar Tal,Yoni Kasten,Tali Dekel
発行日 2023-11-28 18:03:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク