Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck

要約

このペーパーでは、最先端の大規模な言語モデル(LLM)が私たちの視覚的世界に関する階層的な知識を欠いていることを明らかにしています。
この欠点により、LLMSはVision LLMSの階層的な視覚的理解のためのボトルネックになります(例えば、脊椎動物ではなくアネモネ魚を認識します)。
6つの分類法と4つの画像データセットから構築された約100万の4選択視覚質問(VQA)タスクを使用して、これらの調査結果に到達します。
興味深いことに、VQAタスクを使用してVision LLMを微調整すると、VQAタスクがVision LLMよりもLLMの階層的一貫性を改善するため、LLMSのボトルネック効果がある程度再確認されます。
LLMSが対応する分類学知識があるまで、Vision LLMに視覚概念を完全に階層的に理解させることができないと推測します。

要約(オリジナル)

This paper reveals that many state-of-the-art large language models (LLMs) lack hierarchical knowledge about our visual world, unaware of even well-established biology taxonomies. This shortcoming makes LLMs a bottleneck for vision LLMs’ hierarchical visual understanding (e.g., recognizing Anemone Fish but not Vertebrate). We arrive at these findings using about one million four-choice visual question answering (VQA) tasks constructed from six taxonomies and four image datasets. Interestingly, finetuning a vision LLM using our VQA tasks reaffirms LLMs’ bottleneck effect to some extent because the VQA tasks improve the LLM’s hierarchical consistency more than the vision LLM’s. We conjecture that one cannot make vision LLMs understand visual concepts fully hierarchical until LLMs possess corresponding taxonomy knowledge.

arxiv情報

著者 Yuwen Tan,Yuan Qing,Boqing Gong
発行日 2025-05-30 17:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク