要約
この研究は、画像からビデオ (I2V) 生成において、より正確で多用途なオブジェクト制御を実現することを目的としています。
現在の手法は通常、ターゲット オブジェクトの空間的な動きを 2D 軌跡で表現しますが、ユーザーの意図を捉えることができず、不自然な結果が生じることがよくあります。
制御を強化するために、深さ情報を含む 2D 軌道から拡張された 3D 軌道を制御信号として使用する、トレーニング不要のオブジェクト制御アプローチである ObjCtrl-2.5D を紹介します。
ObjCtrl-2.5D は、オブジェクトの動きをカメラの動きとしてモデル化することで、3D 軌跡を一連のカメラ ポーズとして表現し、トレーニングなしで既存のカメラ モーション コントロール I2V 生成モデル (CMC-I2V) を使用してオブジェクト モーション コントロールを可能にします。
もともとグローバル モーション コントロール用に設計された CMC-I2V モデルをローカル オブジェクトのモーションを処理できるように適合させるために、ターゲット オブジェクトを背景から分離し、独立したローカル コントロールを可能にするモジュールを導入します。
さらに、オブジェクトの領域内の低周波ワープ潜在をフレーム全体で共有することで、より正確なオブジェクト制御を実現する効果的な方法を考案します。
広範な実験により、ObjCtrl-2.5D はトレーニング不要の方法と比較してオブジェクト制御の精度が大幅に向上し、2D 軌道を使用したトレーニングベースのアプローチよりも多様な制御機能を提供し、オブジェクトの回転などの複雑な効果を可能にすることが実証されています。
コードと結果は https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/ で入手できます。
要約(オリジナル)
This study aims to achieve more precise and versatile object control in image-to-video (I2V) generation. Current methods typically represent the spatial movement of target objects with 2D trajectories, which often fail to capture user intention and frequently produce unnatural results. To enhance control, we present ObjCtrl-2.5D, a training-free object control approach that uses a 3D trajectory, extended from a 2D trajectory with depth information, as a control signal. By modeling object movement as camera movement, ObjCtrl-2.5D represents the 3D trajectory as a sequence of camera poses, enabling object motion control using an existing camera motion control I2V generation model (CMC-I2V) without training. To adapt the CMC-I2V model originally designed for global motion control to handle local object motion, we introduce a module to isolate the target object from the background, enabling independent local control. In addition, we devise an effective way to achieve more accurate object control by sharing low-frequency warped latent within the object’s region across frames. Extensive experiments demonstrate that ObjCtrl-2.5D significantly improves object control accuracy compared to training-free methods and offers more diverse control capabilities than training-based approaches using 2D trajectories, enabling complex effects like object rotation. Code and results are available at https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.
arxiv情報
著者 | Zhouxia Wang,Yushi Lan,Shangchen Zhou,Chen Change Loy |
発行日 | 2024-12-10 18:14:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google