ComicsPAP: understanding comic strips by picking the correct panel

要約

大規模なマルチモーダルモデル(LMM)は、画像キャプション、VQA、ビデオの理解に印象的な進歩を遂げていますが、コミックで見られる複雑な時間的および空間的キューにまだ苦労しています。
このギャップに対処するために、コミックストリップの理解のために設計された大規模なベンチマークであるComicsPapを紹介します。
100,000人以上のサンプルで構成され、Pick-A-Panelフレームワークの下で5つのサブタスクに編成されたComicsPapは、モデルに欠落パネルをシーケンスで識別することを要求します。
マルチイメージとシングルイメージの両方のプロトコルの両方で実施さ​​れた私たちの評価は、現在の最先端のLMMがこれらのタスクでほぼ偶然に機能し、連続的およびコンテキスト依存関係のキャプチャに大きな制限を強調していることを明らかにしています。
ギャップを埋めるために、コミックストリップの理解のためにLMMSを適応させ、10倍の大きなモデルよりもコミックパップでより良い結果を得て、ComicsPapがマルチモーダルコミックの理解における将来の研究を促進するための堅牢なリソースを提供することを示しています。

要約(オリジナル)

Large multimodal models (LMMs) have made impressive strides in image captioning, VQA, and video comprehension, yet they still struggle with the intricate temporal and spatial cues found in comics. To address this gap, we introduce ComicsPAP, a large-scale benchmark designed for comic strip understanding. Comprising over 100k samples and organized into 5 subtasks under a Pick-a-Panel framework, ComicsPAP demands models to identify the missing panel in a sequence. Our evaluations, conducted under both multi-image and single-image protocols, reveal that current state-of-the-art LMMs perform near chance on these tasks, underscoring significant limitations in capturing sequential and contextual dependencies. To close the gap, we adapted LMMs for comic strip understanding, obtaining better results on ComicsPAP than 10x bigger models, demonstrating that ComicsPAP offers a robust resource to drive future research in multimodal comic comprehension.

arxiv情報

著者 Emanuele Vivoli,Artemis Llabrés,Mohamed Ali Soubgui,Marco Bertini,Ernest Valveny Llobet,Dimosthenis Karatzas
発行日 2025-03-11 15:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク