要約
大規模なビジョン言語モデル(VLM)は、視覚的な質問や視覚的誘惑など、画像やテキストの文字通りの意味を細かく理解する必要があるタスクの強力な能力を実証しています。
ただし、メタファーやユーモアなどの比fig的な意味を含む画像とキャプションを提示した場合、これらのモデルの機能についてはほとんど探求されていません。
このギャップを埋めるために、モデルが画像(前提)にキャプション(仮説)を伴い、テキストの説明で予測ラベルを正当化するかどうかをモデルが予測する必要がある、説明可能な視覚的密接なタスクとして、比ur的な意味の理解をフレーミングする新しいタスクを提案します。
。
比ur的な現象は、画像、キャプション、またはその両方に存在する可能性があります。
Human-AI-AIコラボレーションアプローチを使用して、6,027 {画像、キャプション、ラベル、説明} 5つの多様な比ur的現象を含む添付の専門家で検証されたデータセットV-Fluteを構築します。
自動評価を通じて、VLMは、特に画像に存在する場合、文字通りから比fig的な意味に一般化するのに苦労していることがわかります。
さらに、人間の評価を介してモデルのクラス全体で、VLMの推論(幻覚と不完全または不健全な推論)の一般的なタイプのエラーを特定します。
要約(オリジナル)
Large Vision-Language Models (VLMs) have demonstrated strong capabilities in tasks requiring a fine-grained understanding of literal meaning in images and text, such as visual question-answering or visual entailment. However, there has been little exploration of the capabilities of these models when presented with images and captions containing figurative meaning, such as metaphors or humor. To close this gap, we propose a new task framing the figurative meaning understanding problem as an explainable visual entailment task, where the model has to predict whether the image (premise) entails a caption (hypothesis) and justify the predicted label with a textual explanation. The figurative phenomena can be present in the image, in the caption, or both. Using a human-AI collaboration approach, we build the accompanying expert-verified dataset V-FLUTE, containing 6,027 {image, caption, label, explanation} instances spanning five diverse figurative phenomena: metaphors, similes, idioms, sarcasm, and humor. Through automatic evaluation, we find that VLMs struggle to generalize from literal to figurative meaning, particularly when it is present in images. Further, we identify common types of errors in VLM reasoning (hallucination and incomplete or unsound reasoning) across classes of models via human evaluation.
arxiv情報
著者 | Arkadiy Saakyan,Shreyas Kulkarni,Tuhin Chakrabarty,Smaranda Muresan |
発行日 | 2025-02-17 17:24:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google