要約
視覚言語モデル (VLM) は最近、多様な視覚言語タスクにおいて驚くべき進歩を示しています。
私たちは、より洗練されているもののあまり研究されていない領域であるビジョンベースの演繹的推論を掘り下げ、現在の SOTA VLM でこれまで露呈されていなかった盲点を見つけます。
具体的には、Raven のプログレッシブ行列 (RPM) を活用して、視覚的な手がかりのみに基づいてマルチホップの関係論的推論と演繹的推論を実行する VLM の能力を評価します。
私たちは、Mensa IQ テスト、IntelligenceTest、RAVEN を含む 3 つの多様なデータセットに対して、コンテキスト内学習、自己一貫性、思考連鎖 (CoT) などの標準戦略を採用して、いくつかの人気のある VLM の包括的な評価を実行します。
この結果は、テキストベースの推論における LLM の優れた能力にも関わらず、視覚的な演繹推論において同等の習熟度を達成するにはまだ程遠いことを明らかにしました。
LLM に適用すると効果的な特定の標準戦略が、視覚的推論タスクによって提示される課題にシームレスに変換されないことがわかりました。
詳細な分析により、VLM がこれらのタスクを解決するのに苦労していることが明らかになりました。主な理由は、VLM が RPM サンプル内の複数の混乱する抽象パターンを認識して理解できないためです。
要約(オリジナル)
Vision-Language Models (VLMs) have recently demonstrated incredible strides on diverse vision language tasks. We dig into vision-based deductive reasoning, a more sophisticated but less explored realm, and find previously unexposed blindspots in the current SOTA VLMs. Specifically, we leverage Raven’s Progressive Matrices (RPMs), to assess VLMs’ abilities to perform multi-hop relational and deductive reasoning relying solely on visual clues. We perform comprehensive evaluations of several popular VLMs employing standard strategies such as in-context learning, self-consistency, and Chain-of-thoughts (CoT) on three diverse datasets, including the Mensa IQ test, IntelligenceTest, and RAVEN. The results reveal that despite the impressive capabilities of LLMs in text-based reasoning, we are still far from achieving comparable proficiency in visual deductive reasoning. We found that certain standard strategies that are effective when applied to LLMs do not seamlessly translate to the challenges presented by visual reasoning tasks. A detailed analysis reveals that VLMs struggle to solve these tasks mainly because they are unable to perceive and comprehend multiple, confounding abstract patterns in RPM examples.
arxiv情報
著者 | Yizhe Zhang,He Bai,Ruixiang Zhang,Jiatao Gu,Shuangfei Zhai,Josh Susskind,Navdeep Jaitly |
発行日 | 2024-10-01 04:41:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google