要約
これまでの研究により、脳内の機能局在化の証拠が示されている。
特定の種類の視覚入力に対しては、異なる解剖学的領域が優先的にアクティブになります。
たとえば、紡錘形の顔領域は、顔を含む視覚刺激に対して優先的にアクティブになります。
しかし、視覚意味論の範囲は広範囲に及び、人間の脳ではこれまでのところ、意味論的に調整された大脳皮質のパッチはほんのわずかしか確認されていない。
マルチモーダル (自然言語と画像) ニューラル ネットワーク アーキテクチャ (CLIP) を使用して、自然主義的な画像閲覧中の脳の反応を CLIP 埋め込みにマッピングする高精度の対照モデルをトレーニングします。
次に、DBSCAN クラスタリング アルゴリズムの新しい適応を使用して、これらの参加者固有の対照モデルのパラメータをクラスタリングします。
これにより、共有デコード可能概念 (SDC) と呼ばれるもの、つまり複数の参加者間で共通のボクセルのセットからデコード可能な CLIP 空間内のクラスターが明らかになります。
各 SDC クラスターに最も関連性の高い画像と最も関連性の低い画像を調べると、各 SDC の意味論的特性についてさらに洞察が得られます。
我々は、以前に報告された視覚的特徴(初期視覚野における方向調整など)および顔、場所、身体などの視覚的意味論的概念のSDCに注目します。
私たちの方法で視覚意味論的概念に対して複数のクラスターが見つかった場合、最も関連性の低い画像を使用することで、交絡因子間の解離が可能になります。
たとえば、私たちは食べ物の画像の 2 つのクラスターを発見しました。1 つは色によって、もう 1 つは形状によって決まりました。
また、脚/手用に調整された身体線条体外領域 (EBA) の領域や、右頭頂内溝の数に対する感受性など、これまで報告されていない領域も明らかにします。
したがって、私たちの対照学習方法論は、マルチモーダルニューラルネットワーク表現とクラスタリングアルゴリズムの新しい適応を活用することにより、脳内の新規および既存の視覚意味表現をよりよく特徴付けます。
要約(オリジナル)
Prior work has offered evidence for functional localization in the brain; different anatomical regions preferentially activate for certain types of visual input. For example, the fusiform face area preferentially activates for visual stimuli that include a face. However, the spectrum of visual semantics is extensive, and only a few semantically-tuned patches of cortex have so far been identified in the human brain. Using a multimodal (natural language and image) neural network architecture (CLIP) we train a highly accurate contrastive model that maps brain responses during naturalistic image viewing to CLIP embeddings. We then use a novel adaptation of the DBSCAN clustering algorithm to cluster the parameters of these participant-specific contrastive models. This reveals what we call Shared Decodable Concepts (SDCs): clusters in CLIP space that are decodable from common sets of voxels across multiple participants. Examining the images most and least associated with each SDC cluster gives us additional insight into the semantic properties of each SDC. We note SDCs for previously reported visual features (e.g. orientation tuning in early visual cortex) as well as visual semantic concepts such as faces, places and bodies. In cases where our method finds multiple clusters for a visuo-semantic concept, the least associated images allow us to dissociate between confounding factors. For example, we discovered two clusters of food images, one driven by color, the other by shape. We also uncover previously unreported areas such as regions of extrastriate body area (EBA) tuned for legs/hands and sensitivity to numerosity in right intraparietal sulcus, and more. Thus, our contrastive-learning methodology better characterizes new and existing visuo-semantic representations in the brain by leveraging multimodal neural network representations and a novel adaptation of clustering algorithms.
arxiv情報
著者 | Cory Efird,Alex Murphy,Joel Zylberberg,Alona Fyshe |
発行日 | 2024-10-01 09:43:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google