要約
大規模ビジョン言語モデル (VLM) は、視覚的な質問応答や視覚的な含意など、文字通りの画像やテキストの詳細な理解を必要とするタスクにおいて、強力な推論機能を実証しています。
しかし、比喩やユーモアなどの比喩的な現象を含む画像やキャプションが提示された場合、その意味が暗黙的に示されることが多い、これらのモデルの機能についてはほとんど研究されていません。
このギャップを埋めるために、私たちは新しいタスクと高品質のデータセット、「テキスト説明による視覚的比喩言語理解 (V-FLUTE)」を提案します。
私たちは、視覚的な比喩言語の理解の問題を、説明可能な視覚的含意タスクとして組み立てます。このタスクでは、モデルは、画像 (前提) が主張 (仮説) を伴うかどうかを予測し、予測されたラベルをテキストの説明で正当化する必要があります。
人間と AI のコラボレーション フレームワークを使用して、比喩、直喩、慣用句、皮肉、ユーモアといった 5 つの多様な多峰性の比喩現象にわたる 6,027 個の <画像、主張、ラベル、説明> インスタンスを含む高品質のデータセット V-FLUTE を構築します。
。
比喩的な現象は、画像、キャプション、またはその両方に存在する可能性があります。
さらに、比喩的な現象を理解する際の現在の VLM の能力を評価するために、自動評価と人間による評価の両方を実施します。
要約(オリジナル)
Large Vision-Language models (VLMs) have demonstrated strong reasoning capabilities in tasks requiring a fine-grained understanding of literal images and text, such as visual question-answering or visual entailment. However, there has been little exploration of these models’ capabilities when presented with images and captions containing figurative phenomena such as metaphors or humor, the meaning of which is often implicit. To close this gap, we propose a new task and a high-quality dataset: Visual Figurative Language Understanding with Textual Explanations (V-FLUTE). We frame the visual figurative language understanding problem as an explainable visual entailment task, where the model has to predict whether the image (premise) entails a claim (hypothesis) and justify the predicted label with a textual explanation. Using a human-AI collaboration framework, we build a high-quality dataset, V-FLUTE, that contains 6,027
arxiv情報
著者 | Arkadiy Saakyan,Shreyas Kulkarni,Tuhin Chakrabarty,Smaranda Muresan |
発行日 | 2024-05-02 17:07:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google