SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding

要約

マルチモーダル大手言語モデル(MLLMS)の急速な発展により、これらのモデルのビデオ理解機能を評価するために、より多くのベンチマークが確立されています。
ただし、これらのベンチマークはスタンドアロンビデオに焦点を当てており、主に人間の行動やオブジェクト状態などの「視覚要素」を評価します。
現実には、現代のビデオは、通常、シリーズとして提示される複雑で継続的な物語を網羅することがよくあります。
この課題に対処するために、105の慎重にキュレーションされた物語主導のシリーズで構成されるベンチマークであるシリーズベンチを提案します。
具体的には、最初にさまざまなジャンルにまたがる多様なドラマシリーズのセットを選択します。
次に、新しい長期の物語注釈法を紹介し、フルインフォメーション変換アプローチと組み合わせて、手動注釈を多様なタスク形式に変換します。
シリーズ内のプロット構造とキャラクター関係の詳細な分析のためのモデル容量をさらに強化するために、新しい物語の推論フレームワークであるPC-DCOTを提案します。
シリーズベンチの広範な結果は、既存のMLLMが依然として物語主導のシリーズを理解する上で重要な課題に直面していることを示していますが、PC-DCOTにより、これらのMLLMがパフォーマンスの改善を実現することができます。
全体として、シリーズベンチとPC-DCOTは、MLLMSの将来の発展を導くために、モデル能力を進めるためのモデル機能を進めることの重要な必要性を強調しています。
シリーズベンチは、https://github.com/zackhxn/seriesbench-cvpr2025で公開されています。

要約(オリジナル)

With the rapid development of Multi-modal Large Language Models (MLLMs), an increasing number of benchmarks have been established to evaluate the video understanding capabilities of these models. However, these benchmarks focus on standalone videos and mainly assess ‘visual elements’ like human actions and object states. In reality, contemporary videos often encompass complex and continuous narratives, typically presented as a series. To address this challenge, we propose SeriesBench, a benchmark consisting of 105 carefully curated narrative-driven series, covering 28 specialized tasks that require deep narrative understanding. Specifically, we first select a diverse set of drama series spanning various genres. Then, we introduce a novel long-span narrative annotation method, combined with a full-information transformation approach to convert manual annotations into diverse task formats. To further enhance model capacity for detailed analysis of plot structures and character relationships within series, we propose a novel narrative reasoning framework, PC-DCoT. Extensive results on SeriesBench indicate that existing MLLMs still face significant challenges in understanding narrative-driven series, while PC-DCoT enables these MLLMs to achieve performance improvements. Overall, our SeriesBench and PC-DCoT highlight the critical necessity of advancing model capabilities to understand narrative-driven series, guiding the future development of MLLMs. SeriesBench is publicly available at https://github.com/zackhxn/SeriesBench-CVPR2025.

arxiv情報

著者 Chenkai Zhang,Yiming Lei,Zeming Liu,Haitao Leng,Shaoguo Liu,Tingting Gao,Qingjie Liu,Yunhong Wang
発行日 2025-05-08 09:08:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク