要約
拡散モデルの最近の進歩により、ビデオ生成に革命をもたらし、従来の生成的敵対的ネットワークベースのアプローチと比較して、優れた時間的一貫性と視覚的品質を提供しています。
この新たな分野は、アプリケーションで大きな約束を示していますが、動きの一貫性、計算効率、倫理的考慮事項において大きな課題に直面しています。
この調査では、拡散ベースのビデオ生成の包括的なレビューを提供し、その進化、技術的基盤、および実用的なアプリケーションを調べます。
現在の方法論の体系的な分類法を提示し、建築革新と最適化戦略を分析し、除去や超解像度などの低レベルのビジョンタスク全体でアプリケーションを調査します。
さらに、ビデオ表現の学習、質問の回答、取得など、拡散ベースのビデオ生成と関連するドメインの相乗効果を調査します。
既存の調査(Lei et al。、2024a; b; Melnik et al。、2024; Cao et al。、2023; Xing et al。、2024c)と比較して、ビデオ統合や長年のコンテンツ生成など、ビデオ統合や長い形態のコンテンツ生成など、ビデオ生成の特定の側面に焦点を当てています。
ビデオ生成における評価メトリック、業界ソリューション、およびトレーニングエンジニアリング技術のための特別なセクションを使用した拡散ベースのアプローチに関する視点。
この調査は、拡散モデルとビデオ生成の交差点で働く研究者と実践者の基礎的なリソースとして機能し、この急速に進化する分野を駆動する理論的枠組みと実用的な実装の両方に対する洞察を提供します。
この調査に関与する関連作品の構造化リストは、https://github.com/eyeline-research/survey-video-diffusionでも入手できます。
要約(オリジナル)
Recent advances in diffusion models have revolutionized video generation, offering superior temporal consistency and visual quality compared to traditional generative adversarial networks-based approaches. While this emerging field shows tremendous promise in applications, it faces significant challenges in motion consistency, computational efficiency, and ethical considerations. This survey provides a comprehensive review of diffusion-based video generation, examining its evolution, technical foundations, and practical applications. We present a systematic taxonomy of current methodologies, analyze architectural innovations and optimization strategies, and investigate applications across low-level vision tasks such as denoising and super-resolution. Additionally, we explore the synergies between diffusionbased video generation and related domains, including video representation learning, question answering, and retrieval. Compared to the existing surveys (Lei et al., 2024a;b; Melnik et al., 2024; Cao et al., 2023; Xing et al., 2024c) which focus on specific aspects of video generation, such as human video synthesis (Lei et al., 2024a) or long-form content generation (Lei et al., 2024b), our work provides a broader, more updated, and more fine-grained perspective on diffusion-based approaches with a special section for evaluation metrics, industry solutions, and training engineering techniques in video generation. This survey serves as a foundational resource for researchers and practitioners working at the intersection of diffusion models and video generation, providing insights into both the theoretical frameworks and practical implementations that drive this rapidly evolving field. A structured list of related works involved in this survey is also available on https://github.com/Eyeline-Research/Survey-Video-Diffusion.
arxiv情報
著者 | Yimu Wang,Xuye Liu,Wei Pang,Li Ma,Shuai Yuan,Paul Debevec,Ning Yu |
発行日 | 2025-04-22 17:59:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google