要約
画像キャプションペアで伝えられるユーモアや皮肉を含むマルチモーダルパンチラインは、オンラインマルチメディアプラットフォームでの一般的なコミュニケーション方法です。
マルチモーダル大手言語モデル(MLLM)の急速な発展により、これらのパンチラインを効果的に理解する能力を評価することが不可欠です。
ただし、パンチラインの理解に関する既存のベンチマークは、3つの主要な制限に悩まされています。1)モデルがテキストのみに依存できるようにする言語ショートカット、2)質問の多様性の欠如、および3)マルチモーダルコンテンツの特定のドメイン(例えば、漫画)に焦点を絞ります。
これらの制限に対処するために、マルチモーダル\ textbf {punch} line enduling \ textbf {bench} mark、named \ textbf {punchbench}を紹介します。
評価の精度を向上させるために、元のキャプションを変更することにより、同義語と反意語のキャプションを生成します。これにより、キャプション内のショートカットの影響が軽減されます。
包括的な評価を提供するために、Punchbenchにはさまざまなドメインからの多様な質問形式と画像キャプションが組み込まれています。
これに基づいて、私たちは広範な評価を実施し、パンチラインの理解における最先端のMLLMと人間の間に大きなギャップを明らかにします。
パンチラインの理解を深めるために、シンプルな複雑なチェーンオブクエスト(SC-COQ)戦略を提案し、モデルが最初にシンプルな質問を習得することで複雑な質問に徐々に対処できるようにします。
SC-COQは、パンチベンチでのさまざまなMLLMのパフォーマンスを効果的に向上させ、コンテキスト内の学習とチェーンを上回ります。
要約(オリジナル)
Multimodal punchlines, which involve humor or sarcasm conveyed in image-caption pairs, are a popular way of communication on online multimedia platforms. With the rapid development of multimodal large language models (MLLMs), it is essential to assess their ability to effectively comprehend these punchlines. However, existing benchmarks on punchline comprehension suffer from three major limitations: 1) language shortcuts that allow models to solely rely on text, 2) lack of question diversity, and 3) narrow focus on a specific domain of multimodal content (e.g., cartoon). To address these limitations, we introduce a multimodal \textbf{Punch}line comprehension \textbf{Bench}mark, named \textbf{PunchBench}, which is tailored for accurate and comprehensive evaluation of punchline comprehension. To enhance the evaluation accuracy, we generate synonymous and antonymous captions by modifying original captions, which mitigates the impact of shortcuts in the captions. To provide a comprehensive evaluation, PunchBench incorporates diverse question formats and image-captions from various domains. On this basis, we conduct extensive evaluations and reveal a significant gap between state-of-the-art MLLMs and humans in punchline comprehension. To improve punchline comprehension, we propose Simple-to-Complex Chain-of-Question (SC-CoQ) strategy, enabling the models to incrementally address complicated questions by first mastering simple ones. SC-CoQ effectively enhances the performance of various MLLMs on PunchBench, surpassing in-context learning and chain-of-thought.
arxiv情報
著者 | Kun Ouyang,Yuanxin Liu,Shicheng Li,Yi Liu,Hao Zhou,Fandong Meng,Jie Zhou,Xu Sun |
発行日 | 2025-06-17 13:33:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google