要約
テキストからビデオへの生成モデルは、近年大きな進歩を遂げ、審美的な魅力と正確な指導の両方に優れた高品質のビデオを作成し、デジタルアートの作成とユーザーエンゲージメントの中心となっています。
しかし、これらの進歩にもかかわらず、基本的な物理的法則を尊重する能力はほとんどテストされていないままです。多くの出力は、剛体の衝突、省エネ、重力のダイナミクスなどの基本的な制約に依然として違反しており、非現実的または誤解を招くコンテンツさえも生じています。
既存の物理的評価ベンチマークは、通常、単純なライフシナリオプロンプトに適用される自動、ピクセルレベルのメトリックに依存しているため、人間の判断と第一原理物理学の両方を見落としています。
このギャップを埋めるために、\ textBf {t2vphysbench}を導入します。これは、オープンソースと商業の両方で、最先端のテキストからビデオへのシステムシステムが、ニュートニアンメカニック、保全原則、表現型効果を含む12の中核的な物理法に従うかどうかを体系的に評価するベンチマークです。
当社のベンチマークは、厳格な人間の評価プロトコルを採用しており、3つのターゲット研究が含まれています。(1)すべてのモデルが各法律カテゴリで平均で0.60未満のスコアを示す全体的なコンプライアンス評価。
(2)詳細な法律固有のヒントでさえ物理学の違反を改善できないことを明らかにする迅速なヒントアブレーション。
(3)モデルがしばしば指示されたときに物理的ルールを明示的に破るビデオを生成することを示す反事実的堅牢性テスト。
結果は、現在のアーキテクチャの持続的な制限を公開し、真に物理学を認識するビデオ生成に向けて将来の研究を導くための具体的な洞察を提供します。
要約(オリジナル)
Text-to-video generative models have made significant strides in recent years, producing high-quality videos that excel in both aesthetic appeal and accurate instruction following, and have become central to digital art creation and user engagement online. Yet, despite these advancements, their ability to respect fundamental physical laws remains largely untested: many outputs still violate basic constraints such as rigid-body collisions, energy conservation, and gravitational dynamics, resulting in unrealistic or even misleading content. Existing physical-evaluation benchmarks typically rely on automatic, pixel-level metrics applied to simplistic, life-scenario prompts, and thus overlook both human judgment and first-principles physics. To fill this gap, we introduce \textbf{T2VPhysBench}, a first-principled benchmark that systematically evaluates whether state-of-the-art text-to-video systems, both open-source and commercial, obey twelve core physical laws including Newtonian mechanics, conservation principles, and phenomenological effects. Our benchmark employs a rigorous human evaluation protocol and includes three targeted studies: (1) an overall compliance assessment showing that all models score below 0.60 on average in each law category; (2) a prompt-hint ablation revealing that even detailed, law-specific hints fail to remedy physics violations; and (3) a counterfactual robustness test demonstrating that models often generate videos that explicitly break physical rules when so instructed. The results expose persistent limitations in current architectures and offer concrete insights for guiding future research toward truly physics-aware video generation.
arxiv情報
著者 | Xuyang Guo,Jiayan Huo,Zhenmei Shi,Zhao Song,Jiahao Zhang,Jiale Zhao |
発行日 | 2025-05-01 06:34:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google