DragEntity: Trajectory Guided Video Generation using Entity and Positional Relationships

要約

近年、拡散モデルはビデオ生成の分野で多大な成功を収めており、制御可能なビデオ生成が大きな注目を集めています。
しかし、既存の制御方法には依然として 2 つの制限があります。 まず、制御条件 (深度マップ、3D メッシュなど) を一般ユーザーが直接取得するのは困難です。
第 2 に、複数のオブジェクトを同時に複数の軌道で複雑な動きで駆動するのは困難です。
この論文では、複数のオブジェクトの動きを制御するためにエンティティ表現を利用するビデオ生成モデルである DragEntity を紹介します。
以前のメソッドと比較して、DragEntity には 2 つの主な利点があります。 1) このメソッドでは、ユーザーが個々のピクセルではなく画像内のエンティティをドラッグできるため、対話がよりユーザー フレンドリーです。
2) エンティティ表現を使用して画像内の任意のオブジェクトを表現し、複数のオブジェクトが相対的な空間関係を維持できます。
したがって、複数の軌道で画像内の複数のオブジェクトを異なる複雑さのレベルで同時に制御できるようにします。
私たちの実験では DragEntity の有効性が検証され、ビデオ生成におけるきめ細かい制御における優れたパフォーマンスが実証されました。

要約(オリジナル)

In recent years, diffusion models have achieved tremendous success in the field of video generation, with controllable video generation receiving significant attention. However, existing control methods still face two limitations: Firstly, control conditions (such as depth maps, 3D Mesh) are difficult for ordinary users to obtain directly. Secondly, it’s challenging to drive multiple objects through complex motions with multiple trajectories simultaneously. In this paper, we introduce DragEntity, a video generation model that utilizes entity representation for controlling the motion of multiple objects. Compared to previous methods, DragEntity offers two main advantages: 1) Our method is more user-friendly for interaction because it allows users to drag entities within the image rather than individual pixels. 2) We use entity representation to represent any object in the image, and multiple objects can maintain relative spatial relationships. Therefore, we allow multiple trajectories to control multiple objects in the image with different levels of complexity simultaneously. Our experiments validate the effectiveness of DragEntity, demonstrating its excellent performance in fine-grained control in video generation.

arxiv情報

著者 Zhang Wan,Sheng Tang,Jiawei Wei,Ruize Zhang,Juan Cao
発行日 2024-10-14 17:24:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク