Puzzled by Puzzles: When Vision-Language Models Can’t Take a Hint

要約

レバスパズル、画像を介して言語をエンコードする視覚的な謎、空間的配置、および象徴的な代替は、現在のビジョン言語モデル(VLM)に独自の課題をもたらします。
従来の画像のキャプションや質問への回答タスクとは異なり、Rebus Solvingにはマルチモーダルの抽象化、象徴的な推論、文化的、音声的、言語的駄洒落の把握が必要です。
この論文では、現代のVLMが、単純な絵文字の代替物から空間的に依存するキュー(「Head ‘over’ Heels」)に至るまで、多様な英語のレバスパズルの手で生成され注釈付きのベンチマークを構築することにより、レバスパズルを解釈および解釈する能力を調査します。
さまざまなVLMがどのように機能するかを分析し、私たちの発見は、VLMが単純な視覚的手がかりを解読する際にいくつかの驚くべき能力を示す一方で、抽象的な推論、横思考、視覚的メタファーの理解を必要とするタスクと著しく苦労していることを明らかにしています。

要約(オリジナル)

Rebus puzzles, visual riddles that encode language through imagery, spatial arrangement, and symbolic substitution, pose a unique challenge to current vision-language models (VLMs). Unlike traditional image captioning or question answering tasks, rebus solving requires multi-modal abstraction, symbolic reasoning, and a grasp of cultural, phonetic and linguistic puns. In this paper, we investigate the capacity of contemporary VLMs to interpret and solve rebus puzzles by constructing a hand-generated and annotated benchmark of diverse English-language rebus puzzles, ranging from simple pictographic substitutions to spatially-dependent cues (‘head’ over ‘heels’). We analyze how different VLMs perform, and our findings reveal that while VLMs exhibit some surprising capabilities in decoding simple visual clues, they struggle significantly with tasks requiring abstract reasoning, lateral thinking, and understanding visual metaphors.

arxiv情報

著者 Heekyung Lee,Jiaxin Ge,Tsung-Han Wu,Minwoo Kang,Trevor Darrell,David M. Chan
発行日 2025-05-29 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク