Saliency Suppressed, Semantics Surfaced: Visual Transformations in Neural Networks and the Brain

要約

深層学習アルゴリズムには、生の視覚入力を堅牢な意味理解にどのように変換するかについて、人間が解釈できる説明が不足しているため、異なるアーキテクチャ、トレーニング目標、人間の脳間の比較が妨げられています。
この研究では、神経科学からインスピレーションを得て、表現的アプローチを採用して、ニューラル ネットワークが低 (視覚的顕著性) および高 (意味的類似性) の抽象化レベルで情報をエンコードする方法を明らかにします。
さらに、顕著な意味情報を体系的に操作するカスタム画像データセットを導入します。
オブジェクト分類目標を使用してトレーニングした場合、ResNet は ViT よりも顕著性情報に敏感であることがわかりました。
私たちは、ネットワークが初期層で顕著性を抑制すること、つまり ResNets の自然言語監視 (CLIP) によって強化されるプロセスであることを発見しました。
CLIP は、両方のアーキテクチャでセマンティック エンコーディングも強化します。
最後に、意味論的エンコーディングが AI を人間の視覚認識と一致させるための重要な要素である一方、顕著性の抑制は非脳的戦略であることを示します。

要約(オリジナル)

Deep learning algorithms lack human-interpretable accounts of how they transform raw visual input into a robust semantic understanding, which impedes comparisons between different architectures, training objectives, and the human brain. In this work, we take inspiration from neuroscience and employ representational approaches to shed light on how neural networks encode information at low (visual saliency) and high (semantic similarity) levels of abstraction. Moreover, we introduce a custom image dataset where we systematically manipulate salient and semantic information. We find that ResNets are more sensitive to saliency information than ViTs, when trained with object classification objectives. We uncover that networks suppress saliency in early layers, a process enhanced by natural language supervision (CLIP) in ResNets. CLIP also enhances semantic encoding in both architectures. Finally, we show that semantic encoding is a key factor in aligning AI with human visual perception, while saliency suppression is a non-brain-like strategy.

arxiv情報

著者 Gustaw Opiełka,Jessica Loke,Steven Scholte
発行日 2024-04-29 15:05:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク