LivePhoto: Real Image Animation with Text-guided Motion Control

要約

テキストからビデオへの生成における最近の進歩にもかかわらず、既存の研究は通常、合成ビデオの空間コンテンツのみがテキストの制御下にあり、時間的な動きは制御されていないという問題を見落としています。
このような課題に対して、この作品では LivePhoto という実用的なシステムを紹介します。このシステムを使用すると、ユーザーはテキストの説明を使用して興味のある画像をアニメーション化できます。
まず、十分に学習されたテキストから画像へのジェネレーター (つまり、安定拡散) が画像をさらなる入力として受け取るのに役立つ強力なベースラインを確立します。
次に、改良されたジェネレーターに時間モデリング用のモーション モジュールを装備し、テキストとモーションをより適切にリンクするために慎重に設計されたトレーニング パイプラインを提案します。
特に、(1) テキストは動作を大まかに説明することしかできない (例、移動速度に関係なく)、(2) テキストには内容と動作の説明の両方が含まれる可能性があるという事実を考慮して、テキストだけでなく動作強度推定モジュールを導入します。
再重み付けモジュールを使用して、テキストからモーションへのマッピングの曖昧さを軽減します。
経験的証拠は、私たちのアプローチが、アクション、カメラの動き、さらには何もないところから新しいコンテンツを呼び出す(たとえば、空のグラスに水を注ぐなど)など、動きに関連したテキスト命令をビデオにうまくデコードできることを示唆しています。
興味深いことに、提案された強度学習メカニズムのおかげで、私たちのシステムはビデオカスタマイズ用のテキストに加えて追加の制御信号(つまり、動きの強度)をユーザーに提供します。

要約(オリジナル)

Despite the recent progress in text-to-video generation, existing studies usually overlook the issue that only spatial contents but not temporal motions in synthesized videos are under the control of text. Towards such a challenge, this work presents a practical system, named LivePhoto, which allows users to animate an image of their interest with text descriptions. We first establish a strong baseline that helps a well-learned text-to-image generator (i.e., Stable Diffusion) take an image as a further input. We then equip the improved generator with a motion module for temporal modeling and propose a carefully designed training pipeline to better link texts and motions. In particular, considering the facts that (1) text can only describe motions roughly (e.g., regardless of the moving speed) and (2) text may include both content and motion descriptions, we introduce a motion intensity estimation module as well as a text re-weighting module to reduce the ambiguity of text-to-motion mapping. Empirical evidence suggests that our approach is capable of well decoding motion-related textual instructions into videos, such as actions, camera movements, or even conjuring new contents from thin air (e.g., pouring water into an empty glass). Interestingly, thanks to the proposed intensity learning mechanism, our system offers users an additional control signal (i.e., the motion intensity) besides text for video customization.

arxiv情報

著者 Xi Chen,Zhiheng Liu,Mengting Chen,Yutong Feng,Yu Liu,Yujun Shen,Hengshuang Zhao
発行日 2023-12-05 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク