要約
大規模視覚言語モデル (VLM) は、視覚的な質問応答や視覚的な含意など、画像やテキストの文字通りの意味を詳細に理解する必要があるタスクにおいて強力な機能を実証しています。
しかし、比喩やユーモアなどの比喩的な意味を含む画像やキャプションを提示した場合のこれらのモデルの機能についてはほとんど研究されていません。
このギャップを埋めるために、比喩的な意味理解の問題を説明可能な視覚的含意タスクとして組み立てる新しいタスクを提案します。このタスクでは、モデルは画像 (前提) がキャプション (仮説) を伴うかどうかを予測し、予測されたラベルをテキストの説明で正当化する必要があります。
。
比喩的な現象は、画像、キャプション、またはその両方に存在する可能性があります。
人間と AI のコラボレーション アプローチを利用して、専門家が検証した付属のデータセット V-FLUTE を構築します。このデータセットには、比喩、直喩、慣用句、皮肉、ユーモアという 5 つの多様な比喩的現象にわたる 6,027 個の {画像、キャプション、ラベル、説明} インスタンスが含まれています。
自動評価を通じて、特に画像内に存在する場合、VLM は文字通りの意味から比喩的な意味に一般化するのに苦労していることがわかりました。
さらに、人間による評価を通じて、VLM 推論における一般的なタイプのエラーを特定します。
要約(オリジナル)
Large Vision-Language Models (VLMs) have demonstrated strong capabilities in tasks requiring a fine-grained understanding of literal meaning in images and text, such as visual question-answering or visual entailment. However, there has been little exploration of these models’ capabilities when presented with images and captions containing figurative meaning, such as metaphors or humor. To close this gap, we propose a new task framing the figurative meaning understanding problem as an explainable visual entailment task, where the model has to predict whether the image (premise) entails a caption (hypothesis) and justify the predicted label with a textual explanation. The figurative phenomena can be present either in the image, the caption, or both. Utilizing a human-AI collaboration approach, we build the accompanying expert-verified dataset V-FLUTE, containing 6,027 {image, caption, label, explanation} instances spanning five diverse figurative phenomena: metaphors, similes, idioms, sarcasm, and humor. Through automatic evaluation, we find that VLMs struggle to generalize from literal to figurative meaning, particularly when it is present in images. Further, we identify common types of errors in VLM reasoning via human evaluation.
arxiv情報
著者 | Arkadiy Saakyan,Shreyas Kulkarni,Tuhin Chakrabarty,Smaranda Muresan |
発行日 | 2024-10-16 15:45:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google