TIV-Diffusion: Towards Object-Centric Movement for Text-driven Image to Video Generation

要約

テキスト駆動型の画像からビデオへの生成 (TI2V) は、最初のフレームと対応するテキストの説明を考慮して、制御可能なビデオを生成することを目的としています。
このタスクの主な課題は 2 つの部分にあります。(i) ターゲット オブジェクトを識別し、移動軌跡とテキスト記述の間の一貫性を確保する方法。
(ii) 生成されたビデオの主観的な品質を向上させる方法。
上記の課題に取り組むために、我々は、オブジェクト中心のテキストと視覚の調整を介して、TIV-Diffusion と呼ばれる新しい拡散ベースの TI2V フレームワークを提案します。これは、さまざまなオブジェクトのテキストで記述されたモーションに基づいて正確な制御と高品質のビデオ生成を実現することを目的としています。

具体的には、スケールオフセット変調を通じて融合したテキストと視覚の知識を組み込むことで、TIV-Diffuion モデルがテキストで記述されたオブジェクトとその運動軌跡を認識できるようにします。
さらに、オブジェクトの消失やオブジェクトと動きの位置のずれの問題を軽減するために、オブジェクト中心のテキストと視覚の位置合わせモジュールを導入します。これは、参照画像内のオブジェクトを切り離し、テキストの特徴をそれぞれのオブジェクトと位置合わせすることで、オブジェクトや動きの位置がずれるリスクを軽減します。
個別に反対します。
上記の革新に基づいて、当社の TIV-Diffusion は、既存の TI2V 方式と比較して最先端の高品質ビデオ生成を実現します。

要約(オリジナル)

Text-driven Image to Video Generation (TI2V) aims to generate controllable video given the first frame and corresponding textual description. The primary challenges of this task lie in two parts: (i) how to identify the target objects and ensure the consistency between the movement trajectory and the textual description. (ii) how to improve the subjective quality of generated videos. To tackle the above challenges, we propose a new diffusion-based TI2V framework, termed TIV-Diffusion, via object-centric textual-visual alignment, intending to achieve precise control and high-quality video generation based on textual-described motion for different objects. Concretely, we enable our TIV-Diffuion model to perceive the textual-described objects and their motion trajectory by incorporating the fused textual and visual knowledge through scale-offset modulation. Moreover, to mitigate the problems of object disappearance and misaligned objects and motion, we introduce an object-centric textual-visual alignment module, which reduces the risk of misaligned objects/motion by decoupling the objects in the reference image and aligning textual features with each object individually. Based on the above innovations, our TIV-Diffusion achieves state-of-the-art high-quality video generation compared with existing TI2V methods.

arxiv情報

著者 Xingrui Wang,Xin Li,Yaosi Hu,Hanxin Zhu,Chen Hou,Cuiling Lan,Zhibo Chen
発行日 2024-12-13 16:52:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク