RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control

要約

カメラトリュームガイド付きの画像からビデオへの最近の進歩により、テキストベースのアプローチと比較して、より高い精度と複雑なカメラ制御のサポートが高くなります。
ただし、ユーザーは深さやシーンスケールの知識なしに任意の現実世界画像を操作する際に正確なカメラパラメーターを提供するのに苦労することが多いため、重要なユーザビリティの課題を導入します。
これらの現実世界のアプリケーションの問題に対処するために、単眼のメートリック深度推定を統合して3Dシーンの再構築を前処理ステップで確立する新しい拡散ベースのビデオ生成フレームワークであるRealCam-I2Vを提案します。
トレーニング中、再構築された3Dシーンは、相対値から絶対値へのスケーリングカメラパラメーターを可能にし、多様な現実世界の画像間の互換性とスケールの一貫性を確保します。
推論では、RealCam-I2Vは、3Dシーン内でドラッグすることでユーザーがカメラの軌跡を正確に描画できる直感的なインターフェイスを提供します。
正確なカメラの制御とシーンの一貫性をさらに強化するために、シーンが制約されたノイズシェーピングを提案します。これにより、高レベルのノイズが形成され、フレームワークがより低いノイズ段階で動的でコヒーレントなビデオ生成を維持できます。
RealCam-I2Vは、RealEState10Kおよびドメイン外の画像で制御可能性とビデオ品質の大幅な改善を達成します。
さらに、カメラ制御のループビデオ生成や生成フレームの補間などのアプリケーションを有効にします。
絶対規模の注釈、コード、およびすべてのチェックポイントをリリースします。
https://zgctroy.github.io/realcam-i2vの動的結果をご覧ください。

要約(オリジナル)

Recent advancements in camera-trajectory-guided image-to-video generation offer higher precision and better support for complex camera control compared to text-based approaches. However, they also introduce significant usability challenges, as users often struggle to provide precise camera parameters when working with arbitrary real-world images without knowledge of their depth nor scene scale. To address these real-world application issues, we propose RealCam-I2V, a novel diffusion-based video generation framework that integrates monocular metric depth estimation to establish 3D scene reconstruction in a preprocessing step. During training, the reconstructed 3D scene enables scaling camera parameters from relative to absolute values, ensuring compatibility and scale consistency across diverse real-world images. In inference, RealCam-I2V offers an intuitive interface where users can precisely draw camera trajectories by dragging within the 3D scene. To further enhance precise camera control and scene consistency, we propose scene-constrained noise shaping, which shapes high-level noise and also allows the framework to maintain dynamic, coherent video generation in lower noise stages. RealCam-I2V achieves significant improvements in controllability and video quality on the RealEstate10K and out-of-domain images. We further enables applications like camera-controlled looping video generation and generative frame interpolation. We will release our absolute-scale annotation, codes, and all checkpoints. Please see dynamic results in https://zgctroy.github.io/RealCam-I2V.

arxiv情報

著者 Teng Li,Guangcong Zheng,Rui Jiang,Shuigenzhan,Tao Wu,Yehao Lu,Yining Lin,Xi Li
発行日 2025-02-14 10:21:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク