要約
ビデオ生成の最近の進歩は、特に拡散モデルの急速な進歩により、大きな進歩を目撃しました。
それにもかかわらず、肉体的認知の不足は徐々に広範囲にわたる注目を集めています – 生成されたコンテンツは、しばしば物理学の基本的な法則に違反し、「視覚的リアリズムが肉体的な不条理」のジレンマに陥ります。
研究者は、ビデオ生成における物理的忠実度の重要性をますます認識し始め、運動表現や物理的知識などのヒューリスティックな身体的認知を生成システムに統合して、実際の動的シナリオをシミュレートしようとしました。
この分野の体系的な概要の欠如を考慮すると、この調査は、このギャップを埋めるために、建築設計とそのアプリケーションの包括的な要約を提供することを目的としています。
具体的には、3層の分類法を提案しながら、認知科学の観点からビデオ生成における身体認知の進化プロセスについて議論し、整理します。
その後、このドメインに固有の重要な課題を強調し、将来の研究のための潜在的な経路を描き、学界と産業の両方で議論のフロンティアを前進させることに貢献します。
構造化されたレビューと学際的分析を通じて、この調査は、解釈可能で制御可能な、身体的に一貫したビデオ生成パラダイムを開発するための方向指導を提供することを目的としています。
要約(オリジナル)
Recent advancements in video generation have witnessed significant progress, especially with the rapid advancement of diffusion models. Despite this, their deficiencies in physical cognition have gradually received widespread attention – generated content often violates the fundamental laws of physics, falling into the dilemma of ”visual realism but physical absurdity’. Researchers began to increasingly recognize the importance of physical fidelity in video generation and attempted to integrate heuristic physical cognition such as motion representations and physical knowledge into generative systems to simulate real-world dynamic scenarios. Considering the lack of a systematic overview in this field, this survey aims to provide a comprehensive summary of architecture designs and their applications to fill this gap. Specifically, we discuss and organize the evolutionary process of physical cognition in video generation from a cognitive science perspective, while proposing a three-tier taxonomy: 1) basic schema perception for generation, 2) passive cognition of physical knowledge for generation, and 3) active cognition for world simulation, encompassing state-of-the-art methods, classical paradigms, and benchmarks. Subsequently, we emphasize the inherent key challenges in this domain and delineate potential pathways for future research, contributing to advancing the frontiers of discussion in both academia and industry. Through structured review and interdisciplinary analysis, this survey aims to provide directional guidance for developing interpretable, controllable, and physically consistent video generation paradigms, thereby propelling generative models from the stage of ”visual mimicry” towards a new phase of ”human-like physical comprehension”.
arxiv情報
著者 | Minghui Lin,Xiang Wang,Yishan Wang,Shu Wang,Fengqi Dai,Pengxiang Ding,Cunxiang Wang,Zhengrong Zuo,Nong Sang,Siteng Huang,Donglin Wang |
発行日 | 2025-03-27 17:58:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google