LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

要約

ドラッグベースのインタラクションの直観的な性質により、画像からビデオへの合成におけるオブジェクトの軌道の制御にその採用が増加しています。
それでも、2D 空間でドラッグを実行する既存の方法は、通常、面外の動きを処理するときにあいまいさに直面します。
この研究では、ユーザーが軌道上の各点に相対的な深さを割り当てることができるように、新しい次元、つまり深さの次元との相互作用を強化します。
このようにして、私たちの新しいインタラクション パラダイムは、2D ドラッグの利便性を継承するだけでなく、3D 空間での軌道制御を容易にし、創造性の範囲を広げます。
我々は、オブジェクトマスクをいくつかのクラスターポイントに抽象化することにより、画像からビデオへの合成における3D軌道制御のための先駆的な方法を提案します。
これらのポイントは、奥行き情報とインスタンス情報を伴って、最終的に制御信号としてビデオ拡散モデルに入力されます。
広範な実験により、静止画像からフォトリアリスティックなビデオを生成する際にオブジェクトの動きを正確に操作する、LeviTor と呼ばれる私たちのアプローチの有効性が検証されました。
プロジェクトページ: https://ppetrichor.github.io/levitor.github.io/

要約(オリジナル)

The intuitive nature of drag-based interaction has led to its growing adoption for controlling object trajectories in image-to-video synthesis. Still, existing methods that perform dragging in the 2D space usually face ambiguity when handling out-of-plane movements. In this work, we augment the interaction with a new dimension, i.e., the depth dimension, such that users are allowed to assign a relative depth for each point on the trajectory. That way, our new interaction paradigm not only inherits the convenience from 2D dragging, but facilitates trajectory control in the 3D space, broadening the scope of creativity. We propose a pioneering method for 3D trajectory control in image-to-video synthesis by abstracting object masks into a few cluster points. These points, accompanied by the depth information and the instance information, are finally fed into a video diffusion model as the control signal. Extensive experiments validate the effectiveness of our approach, dubbed LeviTor, in precisely manipulating the object movements when producing photo-realistic videos from static images. Project page: https://ppetrichor.github.io/levitor.github.io/

arxiv情報

著者 Hanlin Wang,Hao Ouyang,Qiuyu Wang,Wen Wang,Ka Leong Cheng,Qifeng Chen,Yujun Shen,Limin Wang
発行日 2024-12-19 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク