要約
この研究では、ピクセルを直接生成して存在しないコンテンツを作成するのとは対照的に、既存の被写体を魅力的なビデオに撮影するためのカメラの動きの制御を自動化することを目指しています。
豊かで挑戦的なモーション パターン、独特の視野角、正確な制御のため、テスト ケースとしてドローン ビデオを選択しました。
既存の AI ビデオ撮影手法は、シミュレーション トレーニングにおける外観の多様性の制限、専門家の操作の記録にかかるコストの高さ、およびすべてのシナリオをカバーするヒューリスティック ベースの目標の設計の難しさに悩まされています。
これらの問題を回避するために、現実世界のトレーニング データを収集して多様性を向上させ、カメラの軌跡を自動的に抽出してアノテーション コストを最小限に抑え、ヒューリスティックに依存しない効果的なアーキテクチャをトレーニングする、スケーラブルな方法を提案します。
具体的には、オンライン ビデオで 3D 再構成を実行し、連続フレームからのカメラ ポーズを接続して 3D カメラ パスを定式化し、カルマン フィルターを使用して低品質データを特定して削除することにより、99,000 個の高品質軌跡を収集します。
さらに、過去のすべてのフレームのカメラ パスと画像を利用して次のフレームのカメラの動きを予測する自己回帰変換器である DVGFormer を紹介します。
私たちは、38 の合成自然シーンと 7 つの実際の都市 3D スキャンにわたってシステムを評価しました。
私たちのシステムが、障害物を通り抜ける、低高度を維持して体感速度を上げる、塔や建物を周回するなど、難しいカメラの動きを効果的に学習することを示します。これは、高品質のビデオを録画するのに非常に役立ちます。
データとコードは dvgformer.github.io で入手できます。
要約(オリジナル)
This study seeks to automate camera movement control for filming existing subjects into attractive videos, contrasting with the creation of non-existent content by directly generating the pixels. We select drone videos as our test case due to their rich and challenging motion patterns, distinctive viewing angles, and precise controls. Existing AI videography methods struggle with limited appearance diversity in simulation training, high costs of recording expert operations, and difficulties in designing heuristic-based goals to cover all scenarios. To avoid these issues, we propose a scalable method that involves collecting real-world training data to improve diversity, extracting camera trajectories automatically to minimize annotation costs, and training an effective architecture that does not rely on heuristics. Specifically, we collect 99k high-quality trajectories by running 3D reconstruction on online videos, connecting camera poses from consecutive frames to formulate 3D camera paths, and using Kalman filter to identify and remove low-quality data. Moreover, we introduce DVGFormer, an auto-regressive transformer that leverages the camera path and images from all past frames to predict camera movement in the next frame. We evaluate our system across 38 synthetic natural scenes and 7 real city 3D scans. We show that our system effectively learns to perform challenging camera movements such as navigating through obstacles, maintaining low altitude to increase perceived speed, and orbiting towers and buildings, which are very useful for recording high-quality videos. Data and code are available at dvgformer.github.io.
arxiv情報
著者 | Yunzhong Hou,Liang Zheng,Philip Torr |
発行日 | 2024-12-12 18:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google