Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models

要約

脳の活動がさまざまな刺激にどのように対応するかを理解するプロセスである神経解読は、認知科学の主要な目的となってきました。
過去 30 年にわたり、機能的磁気共鳴画像法と機械学習の進歩により、特に視覚野において、視覚刺激を脳活動にマッピングする能力が大幅に向上しました。
同時に、より大きな変動に対処し、信号の精度を向上させる技術を利用して、脳全体にわたる言語や記憶などのより複雑なプロセスの解読にも研究が拡大しています。
私たちは、「見る」ことには視覚刺激を視覚野にマッピングするだけではない、と主張します。
さまざまなシーンを観察することでさまざまな感情や認知状態が現れるため、脳全体が活性化されます。
この論文では、個人が視覚刺激にさらされている間の全脳活性化マップを組み込むことにより、視覚プロセスの理解を強化するアルゴリズムを開発します。
当社では、大規模な fMRI エンコーダーと、大規模な公開データセットで事前トレーニングされた画像生成モデルを利用しており、これらは Image-fMRI 対比学習を通じて微調整されます。
したがって、私たちのモデルは、従来の視覚野の範囲を超えて、大脳皮質全体にわたる視覚経験を解読することができます。
まず、視覚処理をデコードするための最先端のアプローチと私たちの方法を比較し、予測意味論的精度が 43% 向上していることを示します。
ネットワークアブレーション分析は、意味形成と意味処理におけるこのネットワークの提案された役割と一致して、視覚野を超えて、デフォルトモードネットワークが刺激の解読に最も貢献していることを示唆しています。
さらに、追加の検証データセットにゼロショット想像力デコーディングを実装し、再構成された画像とグラウンドトゥルースのテキスト刺激のマッピングで 0.0206 の p 値を達成しました。これは、さまざまなシナリオにわたって意味論的な意味を捉えるモデルの能力を実証しています。

要約(オリジナル)

Neural decoding, the process of understanding how brain activity corresponds to different stimuli, has been a primary objective in cognitive sciences. Over the past three decades, advancements in functional Magnetic Resonance Imaging and machine learning have greatly improved our ability to map visual stimuli to brain activity, especially in the visual cortex. Concurrently, research has expanded into decoding more complex processes like language and memory across the whole brain, utilizing techniques to handle greater variability and improve signal accuracy. We argue that ‘seeing’ involves more than just mapping visual stimuli onto the visual cortex; it engages the entire brain, as various emotions and cognitive states can emerge from observing different scenes. In this paper, we develop algorithms to enhance our understanding of visual processes by incorporating whole-brain activation maps while individuals are exposed to visual stimuli. We utilize large-scale fMRI encoders and Image generative models pre-trained on large public datasets, which are then fine-tuned through Image-fMRI contrastive learning. Our models hence can decode visual experience across the entire cerebral cortex, surpassing the traditional confines of the visual cortex. We first compare our method with state-of-the-art approaches to decoding visual processing and show improved predictive semantic accuracy by 43%. A network ablation analysis suggests that beyond the visual cortex, the default mode network contributes most to decoding stimuli, in line with the proposed role of this network in sense-making and semantic processing. Additionally, we implemented zero-shot imagination decoding on an extra validation dataset, achieving a p-value of 0.0206 for mapping the reconstructed images and ground-truth text stimuli, which substantiates the model’s capability to capture semantic meanings across various scenarios.

arxiv情報

著者 Yanchen Wang,Adam Turnbull,Tiange Xiang,Yunlong Xu,Sa Zhou,Adnan Masoud,Shekoofeh Azizi,Feng Vankee Lin,Ehsan Adeli
発行日 2024-11-11 16:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク