BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex Selectivity

要約

高次視覚野の機能的構成を理解することは、神経科学の中心的課題である。これまでの研究では、主に手作業で選択した刺激を用いて神経集団の視覚的・意味的選択性をマッピングしてきたが、これは視覚野の機能性に関する既存の仮説に結果を偏らせる可能性がある。従来のアプローチを超えて、我々はデータ駆動型の方法を紹介する。この方法は、興味のある個々のボクセルを最大に活性化すると予測される画像に対して、自然言語による説明を生成する。本手法は、対照的な視覚-言語モデルによって学習された豊富な埋め込み空間に基づいており、解釈可能なキャプションを生成するために事前に訓練された大規模言語モデルを利用する。我々は、高次視覚領域にわたるきめ細かなボクセルレベルのキャプション生成を通して、本手法を検証する。さらに、キャプションを用いてテキスト条件付き画像合成を行い、我々の画像が意味的に首尾一貫しており、高い予測活性をもたらすことを示す。最後に、我々の方法がいかに科学的発見を可能にするかを示すために、脳内の「人」表現の分布に関する探索的調査を行い、身体選択的領域におけるきめ細かな意味選択性を発見した。テキストを解読する先行研究とは異なり、本手法は意味選択性をボクセル単位で導出する。我々の結果は、BrainSCUBAが脳内の機能的選好を理解するための有望な手段であることを示しており、視覚野のさらなる仮説駆動型調査への動機付けとなる。

要約(オリジナル)

Understanding the functional organization of higher visual cortex is a central focus in neuroscience. Past studies have primarily mapped the visual and semantic selectivity of neural populations using hand-selected stimuli, which may potentially bias results towards pre-existing hypotheses of visual cortex functionality. Moving beyond conventional approaches, we introduce a data-driven method that generates natural language descriptions for images predicted to maximally activate individual voxels of interest. Our method — Semantic Captioning Using Brain Alignments (‘BrainSCUBA’) — builds upon the rich embedding space learned by a contrastive vision-language model and utilizes a pre-trained large language model to generate interpretable captions. We validate our method through fine-grained voxel-level captioning across higher-order visual regions. We further perform text-conditioned image synthesis with the captions, and show that our images are semantically coherent and yield high predicted activations. Finally, to demonstrate how our method enables scientific discovery, we perform exploratory investigations on the distribution of ‘person’ representations in the brain, and discover fine-grained semantic selectivity in body-selective areas. Unlike earlier studies that decode text, our method derives voxel-wise captions of semantic selectivity. Our results show that BrainSCUBA is a promising means for understanding functional preferences in the brain, and provides motivation for further hypothesis-driven investigation of visual cortex.

arxiv情報

著者 Andrew F. Luo,Margaret M. Henderson,Michael J. Tarr,Leila Wehbe
発行日 2024-05-03 17:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, q-bio.NC パーマリンク