Are VLMs Really Blind

要約

ビジョン言語モデルは、光学式文字認識 (OCR)、視覚的質問応答 (VQA)、高度な幾何学的推論など、幅広い複雑なタスクの処理に優れています。
ただし、これらのモデルは、人間にとって特に簡単な低レベルの基本的な視覚タスクではうまく機能しません。
この研究における私たちの目標は、これらのモデルが幾何学的推論に対して本当に「盲目」であるかどうか、あるいはこの分野での機能を強化する方法があるかどうかを判断することでした。
私たちの研究は、特定の質問に応じて画像から重要な情報を抽出するように設計された新しい自動パイプラインを示しています。
直接の VQA にのみ依存するのではなく、質問から派生したキーワードを使用して、質問に関連する画像内の重要な詳細を強調表示するキャプションを作成します。
このキャプションは言語モデルによって使用され、外部からの微調整を必要とせずに質問に対する正確な回答を提供します。

要約(オリジナル)

Vision Language Models excel in handling a wide range of complex tasks, including Optical Character Recognition (OCR), Visual Question Answering (VQA), and advanced geometric reasoning. However, these models fail to perform well on low-level basic visual tasks which are especially easy for humans. Our goal in this work was to determine if these models are truly ‘blind’ to geometric reasoning or if there are ways to enhance their capabilities in this area. Our work presents a novel automatic pipeline designed to extract key information from images in response to specific questions. Instead of just relying on direct VQA, we use question-derived keywords to create a caption that highlights important details in the image related to the question. This caption is then used by a language model to provide a precise answer to the question without requiring external fine-tuning.

arxiv情報

著者 Ayush Singh,Mansi Gupta,Shivank Garg
発行日 2024-10-29 13:20:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク