African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification

要約

最近のラージ ビジョン ランゲージ モデル (LVLM) は、数多くの画像理解および推論タスクにおいて優れた能力を示しています。
しかし、きめ細かい物体分類のタスク (例: \textit{動物種} 間の区別) は、下流での重要性にもかかわらず、十分に調査されていません。
私たちは、\texttt{FOCI} (\textbf{F}ine-graned \textbf{O}bject \textbf{C}lass\textbf{I}fication) を作成することで、この評価のギャップを埋めます。
既存のオブジェクト分類データセットからの粒度の細かいオブジェクト分類: (1) 多肢選択により、自由形式の QA タスクとしての分類に関連する曖昧な回答が回避されます。
(2) CLIP モデルを使用してネガティブラベルをマイニングすることで、分類の困難さを維持します。
\texttt{FOCI}\xspace は、ImageNet-21k の 4 つのドメイン固有のサブセットで 5 つの一般的な分類データセットを補完します。
\texttt{FOCI} で 12 個の公開 LVLM のベンチマークを実行し、画像の理解と推論のベンチマークを確立するための \textit{補完的なスキル} をテストすることを示します。
重要なのは、CLIP モデルは LVLM よりも劇的に優れたパフォーマンスを示します。
LVLM の画像エンコーダはこれらの CLIP モデルに由来しているため、これはエンコーダと LLM の間でオブジェクトを詳細に区別するための調整が不十分であることを示しており、(事前) トレーニング データにはより詳細なアノテーションが付けられることが保証されます。
コードは \url{https://github.com/gregor-ge/FOCI-Benchmark} でリリースされています。

要約(オリジナル)

Recent Large Vision-Language Models (LVLMs) demonstrate impressive abilities on numerous image understanding and reasoning tasks. The task of fine-grained object classification (e.g., distinction between \textit{animal species}), however, has been probed insufficiently, despite its downstream importance. We fill this evaluation gap by creating \texttt{FOCI} (\textbf{F}ine-grained \textbf{O}bject \textbf{C}lass\textbf{I}fication), a difficult multiple-choice benchmark for fine-grained object classification, from existing object classification datasets: (1) multiple-choice avoids ambiguous answers associated with casting classification as open-ended QA task; (2) we retain classification difficulty by mining negative labels with a CLIP model. \texttt{FOCI}\xspace complements five popular classification datasets with four domain-specific subsets from ImageNet-21k. We benchmark 12 public LVLMs on \texttt{FOCI} and show that it tests for a \textit{complementary skill} to established image understanding and reasoning benchmarks. Crucially, CLIP models exhibit dramatically better performance than LVLMs. Since the image encoders of LVLMs come from these CLIP models, this points to inadequate alignment for fine-grained object distinction between the encoder and the LLM and warrants (pre)training data with more fine-grained annotation. We release our code at \url{https://github.com/gregor-ge/FOCI-Benchmark}.

arxiv情報

著者 Gregor Geigle,Radu Timofte,Goran Glavaš
発行日 2024-06-20 16:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク