Estimating the distribution of numerosity and non-numerical visual magnitudes in natural scenes using computer vision

要約

人間は、多くの動物種と同様に、視覚的なシーン内のオブジェクトの数を認識し、おおよそ表現する能力を持っています。
この能力は幼少期を通じて向上し、学習と発達が私たちの数の感覚を形成する上で重要な役割を果たすことを示唆しています。
この仮説は、深層学習に基づいた計算による研究によってさらに裏付けられており、さまざまな数のアイテムを含む画像の統計的構造を学習するニューラル ネットワークでは、数の知覚が自発的に現れる可能性があることが示されています。
しかし、ニューラル ネットワーク モデルは、通常、自然環境の統計構造を忠実に反映していない可能性がある合成データセットを使用してトレーニングされており、人間の数の知覚を調査するために、より生態学的視覚刺激を使用することへの関心も高まっています。
この研究では、コンピューター ビジョン アルゴリズムの最近の進歩を利用して、日常生活の状況でオブジェクトを描写する何千もの実際の画像を含む大規模なデータセット内の数値と非数値の大きさの分布を推定するために使用できるオリジナルのパイプラインを設計および実装します。

自然な視覚シーンでは、さまざまな数値の出現頻度がべき乗則分布に従うことを示します。
さらに、数と連続的な大きさの相関構造が、データセットとシーン タイプ (同種のオブジェクト セットと異種のオブジェクト セット) にわたって安定していることを示します。
このような共分散の「生態学的」パターンを考慮することは、数性の判断に対する非数値的な視覚的手がかりの影響を理解するために重要であることを提案します。

要約(オリジナル)

Humans share with many animal species the ability to perceive and approximately represent the number of objects in visual scenes. This ability improves throughout childhood, suggesting that learning and development play a key role in shaping our number sense. This hypothesis is further supported by computational investigations based on deep learning, which have shown that numerosity perception can spontaneously emerge in neural networks that learn the statistical structure of images with a varying number of items. However, neural network models are usually trained using synthetic datasets that might not faithfully reflect the statistical structure of natural environments, and there is also growing interest in using more ecological visual stimuli to investigate numerosity perception in humans. In this work, we exploit recent advances in computer vision algorithms to design and implement an original pipeline that can be used to estimate the distribution of numerosity and non-numerical magnitudes in large-scale datasets containing thousands of real images depicting objects in daily life situations. We show that in natural visual scenes the frequency of appearance of different numerosities follows a power law distribution. Moreover, we show that the correlational structure for numerosity and continuous magnitudes is stable across datasets and scene types (homogeneous vs. heterogeneous object sets). We suggest that considering such ‘ecological’ pattern of covariance is important to understand the influence of non-numerical visual cues on numerosity judgements.

arxiv情報

著者 Kuinan Hou,Marco Zorzi,Alberto Testolin
発行日 2024-10-15 15:21:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク