OmniDrag: Enabling Motion Control for Omnidirectional Image-to-Video Generation

要約

仮想現実の人気が高まるにつれて、没入型でダイナミックな全方向ビデオ (ODV) を制御可能に作成する需要が高まっています。
以前のテキストから ODV への生成方法は素晴らしい結果を達成しましたが、テキスト入力のみに依存するため、コンテンツの不正確さや不一致に悩まされていました。
最近のモーション コントロール技術ではビデオ生成をきめ細かく制御できますが、これらのメソッドを ODV に直接適用すると、特に複雑な球面モーションの場合、空間の歪みや満足のいくパフォーマンスが得られないことがよくあります。
これらの課題に取り組むために、私たちは OmniDrag を提案します。これは、シーンレベルとオブジェクトレベルの両方のモーション制御を可能にして、正確で高品質の全方向画像からビデオへの生成を可能にする最初のアプローチです。
事前トレーニングされたビデオ拡散モデルに基づいて、複雑な球面運動を効果的に処理するために時間的注意レイヤーと共同で微調整される全方向制御モジュールを導入します。
さらに、モーションコントロール信号を正確に抽出し、ユーザーがハンドルとターゲットポイントを描画するだけでドラッグスタイルの ODV 生成を実行できる新しい球面モーション推定器を開発します。
また、大規模なシーンやオブジェクトのモーションを伴う ODV データの不足に対処する、Move360 という名前の新しいデータセットも紹介します。
実験では、ODV 生成のための総合的なシーンレベルおよびきめ細かいオブジェクトレベルの制御を実現する際に、OmniDrag が大幅に優れていることが実証されました。
プロジェクト ページは https://lwq20020127.github.io/OmniDrag で利用できます。

要約(オリジナル)

As virtual reality gains popularity, the demand for controllable creation of immersive and dynamic omnidirectional videos (ODVs) is increasing. While previous text-to-ODV generation methods achieve impressive results, they struggle with content inaccuracies and inconsistencies due to reliance solely on textual inputs. Although recent motion control techniques provide fine-grained control for video generation, directly applying these methods to ODVs often results in spatial distortion and unsatisfactory performance, especially with complex spherical motions. To tackle these challenges, we propose OmniDrag, the first approach enabling both scene- and object-level motion control for accurate, high-quality omnidirectional image-to-video generation. Building on pretrained video diffusion models, we introduce an omnidirectional control module, which is jointly fine-tuned with temporal attention layers to effectively handle complex spherical motion. In addition, we develop a novel spherical motion estimator that accurately extracts motion-control signals and allows users to perform drag-style ODV generation by simply drawing handle and target points. We also present a new dataset, named Move360, addressing the scarcity of ODV data with large scene and object motions. Experiments demonstrate the significant superiority of OmniDrag in achieving holistic scene-level and fine-grained object-level control for ODV generation. The project page is available at https://lwq20020127.github.io/OmniDrag.

arxiv情報

著者 Weiqi Li,Shijie Zhao,Chong Mou,Xuhan Sheng,Zhenyu Zhang,Qian Wang,Junlin Li,Li Zhang,Jian Zhang
発行日 2024-12-12 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク