GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

要約

カメラの軌跡の設計は、ビデオ制作において重要な役割を果たし、監督の意図を伝え、視覚的なストーリーテリングを強化するための基本的なツールとして機能します。
映画撮影では、写真撮影の監督は、表現力豊かで意図的なフレーミングを実現するために、カメラの動きを細心の注意を払って作り上げます。
ただし、カメラの軌道生成の既存の方法は限られたままです。従来のアプローチは、幾何学的最適化または手作りの手続き型システムに依存していますが、最近の学習ベースの方法は、しばしば構造的バイアスを継承したり、テキストの整合を欠いたりして、創造的な統合を制約します。
この作業では、芸術的で表現力豊かなカメラの軌跡を生成するために、写真のディレクターの専門知識に触発された自動回帰モデルを紹介します。
最初に、フリーモービングカメラの軌跡、深さマップ、特定の動きの詳細なキャプション、シーンとの相互作用、および監督の意図を備えた29Kの実世界のショットを含む大規模なマルチモーダルデータセットであるDataDopを紹介します。
包括的で多様なデータベースのおかげで、テキストガイダンスとRGBD入力に基づいた高品質のコンテキスト対応カメラの移動生成のために、自動エレンジャリング、デコーダーのみの変圧器をさらに訓練します。
広範な実験では、既存の方法と比較して、ゲンドップはより良い制御可能性、より細かい粒子の調整、およびより高い運動安定性を提供することが示されています。
私たちのアプローチは、学習ベースの映画撮影の新しい基準を確立し、カメラ制御と映画制作の将来の進歩への道を開いていると考えています。
当社のプロジェクトWebサイト:https://kszpxxzmc.github.io/gendop/。

要約(オリジナル)

Camera trajectory design plays a crucial role in video production, serving as a fundamental tool for conveying directorial intent and enhancing visual storytelling. In cinematography, Directors of Photography meticulously craft camera movements to achieve expressive and intentional framing. However, existing methods for camera trajectory generation remain limited: Traditional approaches rely on geometric optimization or handcrafted procedural systems, while recent learning-based methods often inherit structural biases or lack textual alignment, constraining creative synthesis. In this work, we introduce an auto-regressive model inspired by the expertise of Directors of Photography to generate artistic and expressive camera trajectories. We first introduce DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with free-moving camera trajectories, depth maps, and detailed captions in specific movements, interaction with the scene, and directorial intent. Thanks to the comprehensive and diverse database, we further train an auto-regressive, decoder-only Transformer for high-quality, context-aware camera movement generation based on text guidance and RGBD inputs, named GenDoP. Extensive experiments demonstrate that compared to existing methods, GenDoP offers better controllability, finer-grained trajectory adjustments, and higher motion stability. We believe our approach establishes a new standard for learning-based cinematography, paving the way for future advancements in camera control and filmmaking. Our project website: https://kszpxxzmc.github.io/GenDoP/.

arxiv情報

著者 Mengchen Zhang,Tong Wu,Jing Tan,Ziwei Liu,Gordon Wetzstein,Dahua Lin
発行日 2025-04-09 17:56:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク