要約
マルチモーダル大手言語モデル(MLLMS)の急速な発展により、これらのモデルのビデオ理解機能を評価するために、より多くのベンチマークが確立されています。
ただし、これらのベンチマークは\ textBf {standalone}ビデオに焦点を当てており、主に人間の行動やオブジェクト状態のように「視覚要素」を評価します。
現実には、現代のビデオはしばしば複雑で継続的な物語を網羅しており、通常は\ textbf {シリーズ}として提示されます。
この課題に対処するために、105の慎重にキュレーションされた物語主導のシリーズで構成されるベンチマークである\ textBf {seriesbench}を提案します。
具体的には、最初にさまざまなジャンルにまたがる多様なドラマシリーズのセットを選択します。
次に、新しい長期の物語注釈法を紹介し、フルインフォメーション変換アプローチと組み合わせて、手動注釈を多様なタスク形式に変換します。
シリーズ内のプロット構造とキャラクター関係の詳細な分析のためのモデル容量をさらに強化するために、新しい物語の推論フレームワーク\ textBf {pc-dcot}を提案します。
\ textbf {seriesbench}の広範な結果は、既存のMLLMが依然として物語主導のシリーズを理解する上で重要な課題に直面していることを示していますが、\ textBf {pc-dcot}により、これらのMLLMがパフォーマンスの改善を実現できます。
全体として、\ textbf {seriesbench}および\ textbf {pc-dcot}は、MLLMSの将来の発展を導くためにモデル機能を進めるためにモデル機能を進めることの重要な必要性を強調しています。
シリーズベンチは、https://github.com/zackhxn/seriesbench-cvpr2025で公開されています。
要約(オリジナル)
With the rapid development of Multi-modal Large Language Models (MLLMs), an increasing number of benchmarks have been established to evaluate the video understanding capabilities of these models. However, these benchmarks focus on \textbf{standalone} videos and mainly assess “visual elements” like human actions and object states. In reality, contemporary videos often encompass complex and continuous narratives, typically presented as a \textbf{series}. To address this challenge, we propose \textbf{SeriesBench}, a benchmark consisting of 105 carefully curated narrative-driven series, covering 28 specialized tasks that require deep narrative understanding. Specifically, we first select a diverse set of drama series spanning various genres. Then, we introduce a novel long-span narrative annotation method, combined with a full-information transformation approach to convert manual annotations into diverse task formats. To further enhance model capacity for detailed analysis of plot structures and character relationships within series, we propose a novel narrative reasoning framework, \textbf{PC-DCoT}. Extensive results on \textbf{SeriesBench} indicate that existing MLLMs still face significant challenges in understanding narrative-driven series, while \textbf{PC-DCoT} enables these MLLMs to achieve performance improvements. Overall, our \textbf{SeriesBench} and \textbf{PC-DCoT} highlight the critical necessity of advancing model capabilities to understand narrative-driven series, guiding the future development of MLLMs. SeriesBench is publicly available at https://github.com/zackhxn/SeriesBench-CVPR2025.
arxiv情報
著者 | Chenkai Zhang,Yiming Lei,Zeming Liu,Haitao Leng,ShaoGuo Liu,Tingting Gao,Qingjie Liu,Yunhong Wang |
発行日 | 2025-04-30 08:48:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google