要約
大規模なマルチモーダル言語モデルの最近の進歩により、幅広いタスクにわたって顕著な熟練度が実証されました。
しかし、これらのモデルは、特に多くのジョークやユーモアの手がかりを支える非線形の物語が含まれる場合、並列化を通じて人間のユーモアのニュアンスを理解するのに依然として苦労しています。
この論文では、各漫画がユーモラスな矛盾を生み出す 2 つのコマで構成されている、矛盾した物語を持つ漫画に焦点を当てて、この課題を調査します。
YesBut ベンチマークを紹介します。このベンチマークは、文字通りの内容理解から深い物語的推論に至るまで、これらのコミックの認識と解釈における AI の能力を評価することを目的とした、さまざまな難易度のタスクで構成されています。
最近の商用またはオープンソースの大規模 (ビジョン) 言語モデルの広範な実験と分析を通じて、これらの漫画に固有の物語的ユーモアの複雑な相互作用を理解する能力を評価します。
私たちの結果は、最先端のモデルであっても、このタスクに関しては人間のパフォーマンスには依然として及ばないことを示しています。
私たちの調査結果は、人間の創造的な表現を理解する際の AI の現在の限界と改善の可能性についての洞察を提供します。
要約(オリジナル)
Recent advancements in large multimodal language models have demonstrated remarkable proficiency across a wide range of tasks. Yet, these models still struggle with understanding the nuances of human humor through juxtaposition, particularly when it involves nonlinear narratives that underpin many jokes and humor cues. This paper investigates this challenge by focusing on comics with contradictory narratives, where each comic consists of two panels that create a humorous contradiction. We introduce the YesBut benchmark, which comprises tasks of varying difficulty aimed at assessing AI’s capabilities in recognizing and interpreting these comics, ranging from literal content comprehension to deep narrative reasoning. Through extensive experimentation and analysis of recent commercial or open-sourced large (vision) language models, we assess their capability to comprehend the complex interplay of the narrative humor inherent in these comics. Our results show that even state-of-the-art models still lag behind human performance on this task. Our findings offer insights into the current limitations and potential improvements for AI in understanding human creative expressions.
arxiv情報
著者 | Zhe Hu,Tuo Liang,Jing Li,Yiren Lu,Yunlai Zhou,Yiran Qiao,Jing Ma,Yu Yin |
発行日 | 2024-05-29 13:51:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google