NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models

要約

パズル、シリーズ、アナロジーを含む認知的テキストおよび視覚的推論タスクは、テキストと空間の両方でパターンを迅速に推論し、解読し、評価する能力を要求します。
膨大な量の人間がキュレーションしたデータに関する広範なトレーニングにより、LLMSとVLMSは一般的な推論タスクで優れていますが、より深い認知的理解を必要とするより複雑な推論と格闘しています。
NTSEBENCHを紹介します。これは、大規模モデルの認知的マルチモーダル推論と問題解決スキルを評価するために設計された新しいデータセットです。
データセットには、26の異なるタイプに分類された合計4,642枚の画像を添付した2728の複数選択質問が含まれています。
これらの質問は、インドの全国的なNTSE試験から引き出されており、単なる暗示学習を超えて知性と批判的思考スキルを評価するために設計された視覚的およびテキストの一般的な適性の課題が組み合わされています。
最先端のLLMとVLMを使用して、データセットにベースラインを確立します。
オープンソースモデルと妥当性モデルの比較を容易にするために、データセットインスタンスで異なるモダリティ(テキストと画像)を処理する4つの異なるモデリング戦略を提案します。

要約(オリジナル)

Cognitive textual and visual reasoning tasks, including puzzles, series, and analogies, demand the ability to quickly reason, decipher, and evaluate patterns both textually and spatially. Due to extensive training on vast amounts of human-curated data, LLMs and VLMs excel in common-sense reasoning tasks, however still struggle with more complex reasoning that demands deeper cognitive understanding. We introduce NTSEBench, a new dataset designed to evaluate cognitive multi-modal reasoning and problem-solving skills of large models. The dataset contains 2728 multiple-choice questions, accompanied by a total of 4,642 images, categorized into 26 different types. These questions are drawn from the nationwide NTSE examination in India and feature a mix of visual and textual general aptitude challenges, designed to assess intelligence and critical thinking skills beyond mere rote learning. We establish baselines on the dataset using state-of-the-art LLMs and VLMs. To facilitate a comparison between open source and propriety models, we propose four distinct modeling strategies to handle different modalities — text and images — in the dataset instances.

arxiv情報

著者 Pranshu Pandya,Vatsal Gupta,Agney S Talwarr,Tushar Kataria,Dan Roth,Vivek Gupta
発行日 2025-04-01 17:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR パーマリンク