GeomVerse: A Systematic Evaluation of Large Models for Geometric Reasoning

要約

大規模な言語モデルは、入力された質問がテキストのみである場合のマルチホップ数学的推論で優れた結果を示しています。
ただし、多くの数学的推論の問題にはテキストと画像の両方が含まれています。
ビジョン言語モデル (VLM) の採用が増え続けているため、このような問題に対する VLM の推論能力を理解することが重要です。
この論文では、幾何学問題のレンズを通して、さまざまな軸に沿った VLM の推論能力を評価します。
複数の軸に沿って制御可能な難易度を備えた幾何学問題の合成データセットを手順に従って作成し、体系的な評価を可能にします。
最先端の VLM のベンチマークを使用して得られた経験的結果は、これらのモデルが、幾何学などの主題 (および一般化すると、同様の推論を必要とする他のトピック) において、以前のベンチマークで示唆されているほどの能力がないことを示しています。
これは、さまざまな深さレベルでのベンチマークの構築によって特に明らかになります。より深い問題を解決するには、追加の記憶された知識ではなく、長い推論の連鎖が必要になるからです。
この分野のさらなる研究のためにデータセットをリリースします。

要約(オリジナル)

Large language models have shown impressive results for multi-hop mathematical reasoning when the input question is only textual. Many mathematical reasoning problems, however, contain both text and image. With the ever-increasing adoption of vision language models (VLMs), understanding their reasoning abilities for such problems is crucial. In this paper, we evaluate the reasoning capabilities of VLMs along various axes through the lens of geometry problems. We procedurally create a synthetic dataset of geometry questions with controllable difficulty levels along multiple axes, thus enabling a systematic evaluation. The empirical results obtained using our benchmark for state-of-the-art VLMs indicate that these models are not as capable in subjects like geometry (and, by generalization, other topics requiring similar reasoning) as suggested by previous benchmarks. This is made especially clear by the construction of our benchmark at various depth levels, since solving higher-depth problems requires long chains of reasoning rather than additional memorized knowledge. We release the dataset for further research in this area.

arxiv情報

著者 Mehran Kazemi,Hamidreza Alvari,Ankit Anand,Jialin Wu,Xi Chen,Radu Soricut
発行日 2023-12-19 15:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク