要約
ビジョン言語モデル(VLMS)の最近の進歩にもかかわらず、現在のベンチマークの制限のために、長型のビデオコンテンツの全体的な理解は重要な課題のままです。
多くの人が周辺の「ヘイスタックの針」の詳細に焦点を当てており、深い理解に対するコンテキストに依存しない検索を促進しています。
他の人は、モデルが答えやすいが本物の理解を反映することができない、大規模で半自動的に生成された質問(言語モデル自体によって生成されることが多い)に依存しています。
このペーパーでは、モデルがフルレングスの映画(長さ50〜170分)から重要な物語情報を理解、統合、および想起できるかどうかを評価するための新しいベンチマークであるMF $^2 $を紹介します。
MF $^2 $には、50を超えるフルレングスのオープンライセンスの映画が含まれており、それぞれが手動で構築されたクレームペアのセットとペアになります。
これらの主張は、キャラクターの動機と感情、因果チェーン、イベントの順序などのコアナラティブ要素を対象としており、人間が映画を再視聴せずに思い出すことができる記憶に残る瞬間を指します。
複数選択形式の代わりに、バイナリクレーム評価プロトコルを採用します。各ペアについて、モデルは真と虚偽のクレームの両方を正しく識別する必要があります。
これにより、回答のようなバイアスが減少し、推論のより正確な評価が可能になります。
私たちの実験は、オープンウェイトと閉じた最先端のモデルの両方が人間のパフォーマンスに大きく及ばないことを示しており、人間のタスクの相対的な容易さと、重要な物語情報を維持し、推論する優れた能力を強調しています。
要約(オリジナル)
Despite recent progress in vision-language models (VLMs), holistic understanding of long-form video content remains a significant challenge, partly due to limitations in current benchmarks. Many focus on peripheral, “needle-in-a-haystack” details, encouraging context-insensitive retrieval over deep comprehension. Others rely on large-scale, semi-automatically generated questions (often produced by language models themselves) that are easier for models to answer but fail to reflect genuine understanding. In this paper, we introduce MF$^2$, a new benchmark for evaluating whether models can comprehend, consolidate, and recall key narrative information from full-length movies (50-170 minutes long). MF$^2$ includes over 50 full-length, open-licensed movies, each paired with manually constructed sets of claim pairs — one true (fact) and one plausible but false (fib), totalling over 850 pairs. These claims target core narrative elements such as character motivations and emotions, causal chains, and event order, and refer to memorable moments that humans can recall without rewatching the movie. Instead of multiple-choice formats, we adopt a binary claim evaluation protocol: for each pair, models must correctly identify both the true and false claims. This reduces biases like answer ordering and enables a more precise assessment of reasoning. Our experiments demonstrate that both open-weight and closed state-of-the-art models fall well short of human performance, underscoring the relative ease of the task for humans and their superior ability to retain and reason over critical narrative information — an ability current VLMs lack.
arxiv情報
著者 | Emmanouil Zaranis,António Farinhas,Saul Santos,Beatriz Canaverde,Miguel Moura Ramos,Aditya K Surikuchi,André Viveiros,Baohao Liao,Elena Bueno-Benito,Nithin Sivakumaran,Pavlo Vasylenko,Shoubin Yu,Sonal Sannigrahi,Wafaa Mohammed,Ben Peters,Danae Sánchez Villegas,Elias Stengel-Eskin,Giuseppe Attanasio,Jaehong Yoon,Stella Frank,Alessandro Suglia,Chrysoula Zerva,Desmond Elliott,Mariella Dimiccoli,Mohit Bansal,Oswald Lanz,Raffaella Bernardi,Raquel Fernández,Sandro Pezzelle,Vlad Niculae,André F. T. Martins |
発行日 | 2025-06-06 17:58:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google