MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation

要約

このペーパーでは、ユーザーが画像間生成のコンテキストで映画のビデオショットを設計できる方法を紹介します。
映画製作の重要な側面であるショットデザインには、シーンでカメラの動きとオブジェクトの動きの両方を細心の注意を払って計画します。
ただし、最新の画像間生成システムで直感的なショットデザインを有効にすると、2つの主な課題があります。まず、カメラの動きとシーン空間オブジェクトの動きの両方を共同で指定する必要があるモーションデザインでユーザーの意図を効果的にキャプチャすることです。
第二に、ビデオ拡散モデルによって効果的に利用できるモーション情報を表して、画像アニメーションを合成します。
これらの課題に対処するために、ユーザー駆動型のコントロールを画像間(I2V)生成モデルに統合する方法であるMotionCanvasを紹介し、ユーザーがオブジェクトとカメラの両方のモーションとカメラのモーションをシーンを使用する方法で制御できるようにします。
古典的なコンピューターグラフィックスと現代的なビデオ生成技術からの洞察を接続することにより、費用のかかる3D関連トレーニングデータを必要とせずに、I2V合成で3D認識のモーションコントロールを実現する能力を実証します。
MotionCanvasを使用すると、ユーザーはシーンスペースの動きの意図を直感的に描写し、ビデオ拡散モデルの時空間モーションコンディショニングシグナルに変換できます。
幅広い現実世界の画像コンテンツとショットデザインのシナリオに対する方法の有効性を実証し、デジタルコンテンツの作成における創造的なワークフローを強化し、さまざまな画像編集アプリケーションに適応する可能性を強調しています。

要約(オリジナル)

This paper presents a method that allows users to design cinematic video shots in the context of image-to-video generation. Shot design, a critical aspect of filmmaking, involves meticulously planning both camera movements and object motions in a scene. However, enabling intuitive shot design in modern image-to-video generation systems presents two main challenges: first, effectively capturing user intentions on the motion design, where both camera movements and scene-space object motions must be specified jointly; and second, representing motion information that can be effectively utilized by a video diffusion model to synthesize the image animations. To address these challenges, we introduce MotionCanvas, a method that integrates user-driven controls into image-to-video (I2V) generation models, allowing users to control both object and camera motions in a scene-aware manner. By connecting insights from classical computer graphics and contemporary video generation techniques, we demonstrate the ability to achieve 3D-aware motion control in I2V synthesis without requiring costly 3D-related training data. MotionCanvas enables users to intuitively depict scene-space motion intentions, and translates them into spatiotemporal motion-conditioning signals for video diffusion models. We demonstrate the effectiveness of our method on a wide range of real-world image content and shot-design scenarios, highlighting its potential to enhance the creative workflows in digital content creation and adapt to various image and video editing applications.

arxiv情報

著者 Jinbo Xing,Long Mai,Cusuh Ham,Jiahui Huang,Aniruddha Mahapatra,Chi-Wing Fu,Tien-Tsin Wong,Feng Liu
発行日 2025-02-06 18:41:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク