要約
大規模なモデルのマルチステップ推論機能を評価するために作成された最初の長い物語ビデオベンチマークであるVrbenchを提示し、時間的推論と手続き上の妥当性を見落とす既存の評価の制限に対処します。
1,010個の長さのビデオ(平均1.6時間の期間)と、9,468人の人間標識マルチステップの質問アンウェーのペアと、タイムスタンプを使用した30,292の推論ステップで構成されています。
これらのビデオは、プロットコヒーレンスを優先するための専門家間レビューを含むマルチステージフィルタリングプロセスを介してキュレーションされています。
私たちは、コヒーレントな推論チェーンを生成する人間と協調的なフレームワークを開発します。それぞれが、7つのタイプ(例:イベントの帰属、暗黙的な推論など)にまたがる複数の時間的に接地したステップを必要とします。
Vrbenchは、結果レベルとプロセスレベルの両方でモデルを評価する多相評価パイプラインを設計します。
最終結果のMCQとは別に、複数の次元からの推論チェーンの品質を包括的に評価するために、進行状況レベルのLLM誘導スコアリングメトリックを提案します。
VRBenchで12 LLMと16のVLMを広範囲に評価することにより、徹底的な分析を行い、マルチステップ推論の分野を前進させる貴重な洞察を提供します。
要約(オリジナル)
We present VRBench, the first long narrative video benchmark crafted for evaluating large models’ multi-step reasoning capabilities, addressing limitations in existing evaluations that overlook temporal reasoning and procedural validity. It comprises 1,010 long videos (with an average duration of 1.6 hours), along with 9,468 human-labeled multi-step question-answering pairs and 30,292 reasoning steps with timestamps. These videos are curated via a multi-stage filtering process including expert inter-rater reviewing to prioritize plot coherence. We develop a human-AI collaborative framework that generates coherent reasoning chains, each requiring multiple temporally grounded steps, spanning seven types (e.g., event attribution, implicit inference). VRBench designs a multi-phase evaluation pipeline that assesses models at both the outcome and process levels. Apart from the MCQs for the final results, we propose a progress-level LLM-guided scoring metric to evaluate the quality of the reasoning chain from multiple dimensions comprehensively. Through extensive evaluations of 12 LLMs and 16 VLMs on VRBench, we undertake a thorough analysis and provide valuable insights that advance the field of multi-step reasoning.
arxiv情報
著者 | Jiashuo Yu,Yue Wu,Meng Chu,Zhifei Ren,Zizheng Huang,Pei Chu,Ruijie Zhang,Yinan He,Qirui Li,Songze Li,Zhenxiang Li,Zhongying Tu,Conghui He,Yu Qiao,Yali Wang,Yi Wang,Limin Wang |
発行日 | 2025-06-12 16:17:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google