要約
合成ビデオ生成は、そのリアリズムと幅広いアプリケーションに対して大きな注目を集めていますが、常識と物理的法則の違反になりやすいままです。
これは、そのような原則を理解し、幻覚に対して堅牢である信頼できる異常検出器の必要性を強調しています。
これに対処するために、ViedHalluを紹介します。VideoHalluは、Veo2、Sora、Klingなどのモデルによって生成された合成ビデオから構築された3,000を超えるビデオQAペアのベンチマークであり、専門家で作られたカウンターに反したQAと組み合わせて、マルチモーダル大言語モデル(MLLM)の批判的思考能力を評価します。
VideoHalluは、MLLMSの異常検出能力を、アラインメント、一貫性、常識、および物理学の例を使用して評価します。
GPT-4O、GEMINI-2.5-PRO、QWEN2.5-VL、Video-R1、およびVideoChat-R1を含むSota Mllmsをベンチマークします。
これらのモデルは、MVBenchやMovieChatなどの多くの現実世界のベンチマークでうまく機能しますが、合成ビデオでは基本的な物理ベースと常識的な推論に苦労しています。
さらに、ビデオQAと現実的および合成ビデオに対するカウンターに反したコモンセンスと物理学の推論を組み合わせたデータセットでのカリキュラム学習を使用して、グループ相対ポリシーの最適化(GRPO)を使用した後のトレーニングにより、MLLMの異常検出と批判的思考が改善され、ターゲットトレーニングの価値を改善するためのターゲットトレーニングの価値が示されます。
私たちのコードは、https://github.com/zli12321/videohallu.gitで入手できます。
要約(オリジナル)
Synthetic video generation has gained significant attention for its realism and broad applications, but remains prone to violations of common sense and physical laws. This highlights the need for reliable abnormality detectors that understand such principles and are robust to hallucinations. To address this, we introduce VideoHallu, a benchmark of over 3,000 video QA pairs built from synthetic videos generated by models like Veo2, Sora, and Kling, paired with expert-crafted counterintuitive QA to evaluate the critical thinking abilities of Multi-modal Large Language Models (MLLMs) on abnormalities that are perceptually obvious to humans but often hallucinated due to language priors. VideoHallu evaluates MLLMs’ abnormality detection abilities with examples across alignment, consistency, commonsense, and physics. We benchmark SOTA MLLMs, including GPT-4o, Gemini-2.5-Pro, Qwen2.5-VL, Video-R1, and VideoChat-R1. We observe that these models perform well on many real-world benchmarks like MVBench and MovieChat, but still struggle with basic physics-based and commonsense reasoning in synthetic videos. We further show that post-training with Group Relative Policy Optimization (GRPO), using curriculum learning on datasets combining video QA with counterintuitive commonsense and physics reasoning over real and synthetic videos, improves MLLMs’ abnormality detection and critical thinking, demonstrating the value of targeted training for improving their understanding of commonsense and physical laws. Our code is available at https://github.com/zli12321/VideoHallu.git.
arxiv情報
著者 | Zongxia Li,Xiyang Wu,Guangyao Shi,Yubin Qin,Hongyang Du,Tianyi Zhou,Dinesh Manocha,Jordan Lee Boyd-Graber |
発行日 | 2025-06-18 16:21:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google