PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension

要約

画像とキャプションのペアでユーモアや皮肉を伝えるマルチモーダルなオチは、オンライン マルチメディア プラットフォームでのコミュニケーションの一般的な方法です。
マルチモーダル大規模言語モデル (MLLM) が急速に開発されているため、これらのオチを効果的に理解する能力を評価することが不可欠です。
しかし、オチの理解に関する既存のベンチマークには 3 つの大きな制限があります。1) モデルがテキストのみに依存できる言語のショートカット、2) 質問の多様性の欠如、3) マルチモーダル コンテンツの特定の領域 (漫画など) に焦点が絞られている

これらの制限に対処するために、\textbf{PunchBench} という名前のマルチモーダル \textbf{パンチ}ライン理解 \textbf{Bench} マークを導入します。これは、オチの理解の正確かつ包括的な評価のために調整されています。
評価の精度を高めるために、元のキャプションを変更して同義および反意のキャプションを生成し、キャプション内のショートカットの影響を軽減します。
総合的な評価を提供するために、PunchBench にはさまざまな分野の多様な質問形式と画像キャプションが組み込まれています。
これに基づいて、私たちは広範な評価を実施し、オチの理解において最先端の MLLM と人間との間に大きなギャップがあることを明らかにしました。
オチの理解を向上させるために、単純から複雑への質問連鎖 (SC-CoQ) 戦略を提案します。これにより、最初に単純な質問を習得することで、モデルが複雑な質問に段階的に対処できるようになります。
SC-CoQ は、PunchBench 上のさまざまな MLLM のパフォーマンスを効果的に強化し、コンテキスト内学習や思考連鎖を超えます。

要約(オリジナル)

Multimodal punchlines, which involve humor or sarcasm conveyed in image-caption pairs, are a popular way of communication on online multimedia platforms. With the rapid development of multimodal large language models (MLLMs), it is essential to assess their ability to effectively comprehend these punchlines. However, existing benchmarks on punchline comprehension suffer from three major limitations: 1) language shortcuts that allow models to solely rely on text, 2) lack of question diversity, and 3) narrow focus on a specific domain of multimodal content (e.g., cartoon). To address these limitations, we introduce a multimodal \textbf{Punch}line comprehension \textbf{Bench}mark, named \textbf{PunchBench}, which is tailored for accurate and comprehensive evaluation of punchline comprehension. To enhance the evaluation accuracy, we generate synonymous and antonymous captions by modifying original captions, which mitigates the impact of shortcuts in the captions. To provide a comprehensive evaluation, PunchBench incorporates diverse question formats and image-captions from various domains. On this basis, we conduct extensive evaluations and reveal a significant gap between state-of-the-art MLLMs and humans in punchline comprehension. To improve punchline comprehension, we propose Simple-to-Complex Chain-of-Question (SC-CoQ) strategy, enabling the models to incrementally address complicated questions by first mastering simple ones. SC-CoQ effectively enhances the performance of various MLLMs on PunchBench, surpassing in-context learning and chain-of-thought.

arxiv情報

著者 Kun Ouyang,Yuanxin Liu,Shicheng Li,Yi Liu,Hao Zhou,Fandong Meng,Jie Zhou,Xu Sun
発行日 2024-12-16 15:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク