What Makes a Face Look like a Hat: Decoupling Low-level and High-level Visual Properties with Image Triplets

要約

視覚的な意思決定では、オブジェクト カテゴリなどの高レベルの機能が選択に大きな影響を与えます。
しかし、低レベルの特徴が行動に及ぼす影響は、提示された刺激における高レベルの特徴と低レベルの特徴の間に高い相関関係があることもあり、あまり理解されていません(たとえば、同じカテゴリのオブジェクトは低レベルの特徴を共有する可能性が高くなります)。

これらの効果を解きほぐすために、新しい刺激セットにおける低レベルと高レベルの視覚特性の相関を解除する方法を提案します。
私たちの手法では、腹側視覚ストリームの候補モデルとして 2 つの畳み込みニューラル ネットワーク (CNN) を使用します。CORnet-S は高レベルの IT のような応答で高い神経予測性を持ち、VGG-16 は低レベルで高い神経予測性を持ちます。
レベルの反応。
刺激の 3 つ組(ルート、画像 1、画像 2)は、さまざまなレイヤーから抽出された画像の低レベルおよび高レベルの類似性のレベルによってパラメータ化されます。
これらの刺激は、参加者がルートに最も類似した画像を選択するよう課される意思決定タスクで使用されます。
ネットワークが異なると、低レベルの類似性と高レベルの類似性の影響を予測する能力が異なることがわかりました。高レベルの類似性に基づく人間の選択の説明では CORnet-S が VGG-16 より優れているのに対し、説明では VGG-16 が CORnet-S よりも優れています。
低レベルの類似性に基づく人間の選択。
Brain-Score を使用して、これらのネットワークのさまざまな層の行動予測能力が、視覚階層のさまざまなレベルでの神経活動を説明する能力に定性的に対応していることを観察しました。
要約すると、刺激セット生成のための私たちのアルゴリズムにより、ビジュアル ストリーム内のさまざまな表現が高レベルの認知行動にどのような影響を与えるかを研究することが可能になります。

要約(オリジナル)

In visual decision making, high-level features, such as object categories, have a strong influence on choice. However, the impact of low-level features on behavior is less understood partly due to the high correlation between high- and low-level features in the stimuli presented (e.g., objects of the same category are more likely to share low-level features). To disentangle these effects, we propose a method that de-correlates low- and high-level visual properties in a novel set of stimuli. Our method uses two Convolutional Neural Networks (CNNs) as candidate models of the ventral visual stream: the CORnet-S that has high neural predictivity in high-level, IT-like responses and the VGG-16 that has high neural predictivity in low-level responses. Triplets (root, image1, image2) of stimuli are parametrized by the level of low- and high-level similarity of images extracted from the different layers. These stimuli are then used in a decision-making task where participants are tasked to choose the most similar-to-the-root image. We found that different networks show differing abilities to predict the effects of low-versus-high-level similarity: while CORnet-S outperforms VGG-16 in explaining human choices based on high-level similarity, VGG-16 outperforms CORnet-S in explaining human choices based on low-level similarity. Using Brain-Score, we observed that the behavioral prediction abilities of different layers of these networks qualitatively corresponded to their ability to explain neural activity at different levels of the visual hierarchy. In summary, our algorithm for stimulus set generation enables the study of how different representations in the visual stream affect high-level cognitive behaviors.

arxiv情報

著者 Maytus Piriyajitakonkij,Sirawaj Itthipuripat,Ian Ballard,Ioannis Pappas
発行日 2024-09-12 17:03:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.NC パーマリンク