Computer Vision Models Show Human-Like Sensitivity to Geometric and Topological Concepts

要約

機械学習(ML)モデルの急速な改善により、認知科学者は人間の考え方との整合性についてますます求めています。
ここでは、コンピュータービジョンモデルと幾何学的およびトポロジー(GT)の概念に対する人間の感受性についてこの質問をします。
コアナレッジアカウントの下で、これらの概念は生来のものであり、専用の神経回路によってサポートされています。
この作業では、環境との日常的な相互作用を通じてGTの概念が「無料で」学習されることを別の説明を調査します。
大規模な画像データセットでトレーニングされているコンピュータービジョンモデルを使用しています。
7つのクラスに及ぶ43 GTの概念をテストする奇数1タスクテストで、畳み込みニューラルネットワーク(CNNS)、変圧器ベースのモデル、ビジョン言語モデルの3つのクラスのモデルの全体的なパフォーマンスとヒューマンアライメントを調査するための以前の研究に基づいて構築されています。
変圧器ベースのモデルは、幼い子供の精度を上回り、全体的な精度を最も高くしています。
また、子どもたちのパフォーマンスと強い整合性を示し、同じクラスの概念を簡単に困難にします。
対照的に、ビジョン言語モデルはビジョンのみのカウンターパートをパフォーマンスしており、人間のプロファイルをさらに逸脱し、na \ ‘iveマルチモダリティが抽象的な幾何学的感度を損なう可能性があることを示しています。
これらの調査結果は、GTの概念に対する人間の感受性を説明するための学習アカウントの十分性を評価するためのコンピュータービジョンモデルの使用をサポートし、言語的表現と視覚的表現を統合することは予測されていない有害な結果をもたらす可能性があることを示唆しています。

要約(オリジナル)

With the rapid improvement of machine learning (ML) models, cognitive scientists are increasingly asking about their alignment with how humans think. Here, we ask this question for computer vision models and human sensitivity to geometric and topological (GT) concepts. Under the core knowledge account, these concepts are innate and supported by dedicated neural circuitry. In this work, we investigate an alternative explanation, that GT concepts are learned “for free” through everyday interaction with the environment. We do so using computer visions models, which are trained on large image datasets. We build on prior studies to investigate the overall performance and human alignment of three classes of models — convolutional neural networks (CNNs), transformer-based models, and vision-language models — on an odd-one-out task testing 43 GT concepts spanning seven classes. Transformer-based models achieve the highest overall accuracy, surpassing that of young children. They also show strong alignment with children’s performance, finding the same classes of concepts easy vs. difficult. By contrast, vision-language models underperform their vision-only counterparts and deviate further from human profiles, indicating that na\’ive multimodality might compromise abstract geometric sensitivity. These findings support the use of computer vision models to evaluate the sufficiency of the learning account for explaining human sensitivity to GT concepts, while also suggesting that integrating linguistic and visual representations might have unpredicted deleterious consequences.

arxiv情報

著者 Zekun Wang,Sashank Varma
発行日 2025-05-19 16:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク