Vision language models are blind

要約

GPT-4o や Gemini 1.5 Pro などのビジョン機能 (VLM) を備えた大規模言語モデルは、無数の画像テキスト アプリケーションを強化し、多くのビジョン理解ベンチマークで高いスコアを獲得しています。
私たちは、人間にとってばかげて簡単な 7 つの視覚的タスクからなる一連のブラインドテストを提案します。
(b) 2 本の線が交差するかどうか。
(c) 単語内でどの文字が丸で囲まれているか。
(d) オリンピック風のロゴ内の円の数を数える。
驚くべきことに、4 つの最先端の VLM は、ベンチマークで平均して 56.20% の精度しかなく、\newsonnet が最高 (73.77% の精度) でした。
BlindTest では、VLM は正確な空間情報と数 (0 から 10) を必要とするタスクに苦労し、近視の人が細かい部分がぼやけて見え、知識に基づいた推測をしているかのような印象を与えることがあります。
コードはhttps://vlmsareblind.github.io/で入手できます。

要約(オリジナル)

Large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro are powering countless image-text applications and scoring high on many vision-understanding benchmarks. We propose BlindTest, a suite of 7 visual tasks absurdly easy to humans such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting the number of circles in a Olympic-like logo. Surprisingly, four state-of-the-art VLMs are, on average, only 56.20% accurate on our benchmark, with \newsonnet being the best (73.77% accuracy). On BlindTest, VLMs struggle with tasks that requires precise spatial information and counting (from 0 to 10), sometimes providing an impression of a person with myopia seeing fine details as blurry and making educated guesses. Code is available at: https://vlmsareblind.github.io/

arxiv情報

著者 Pooyan Rahmanzadehgervi,Logan Bolton,Mohammad Reza Taesiri,Anh Totti Nguyen
発行日 2024-07-12 04:55:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク