BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex Selectivity

要約

高次視覚野の機能構成を理解することは、神経科学の中心的な焦点です。
過去の研究では主に、手動で選択した刺激を使用して神経集団の視覚的および意味的選択性をマッピングしていましたが、これにより結果が視覚野の機能に関する既存の仮説に偏る可能性があります。
従来のアプローチを超えて、対象となる個々のボクセルを最大限に活性化すると予測される画像の自然言語記述を生成するデータ駆動型の手法を導入します。
私たちの手法 — Semantic Captioning using Brain Alignments (‘BrainSCUBA’) — は、対照的な視覚言語モデルによって学習された豊富な埋め込み空間に基づいて構築され、事前にトレーニングされた大規模な言語モデルを利用して、解釈可能なキャプションを生成します。
私たちは、高次の視覚領域にわたるきめ細かいボクセルレベルのキャプションを通じてこの方法を検証します。
さらに、キャプションを含むテキスト条件付き画像合成を実行し、画像が意味的に一貫性があり、高い予測活性化が得られることを示します。
最後に、私たちの方法がどのように科学的発見を可能にするかを実証するために、脳内の「人」表現の分布に関する探索的調査を実行し、身体選択領域におけるきめの細かい意味選択性を発見します。
テキストをデコードする以前の研究とは異なり、私たちの方法は意味選択性のボクセルごとのキャプションを導き出します。
私たちの結果は、BrainSCUBA が脳の機能的好みを理解するための有望な手段であり、視覚野のさらなる仮説に基づく研究への動機付けとなることを示しています。

要約(オリジナル)

Understanding the functional organization of higher visual cortex is a central focus in neuroscience. Past studies have primarily mapped the visual and semantic selectivity of neural populations using hand-selected stimuli, which may potentially bias results towards pre-existing hypotheses of visual cortex functionality. Moving beyond conventional approaches, we introduce a data-driven method that generates natural language descriptions for images predicted to maximally activate individual voxels of interest. Our method — Semantic Captioning Using Brain Alignments (‘BrainSCUBA’) — builds upon the rich embedding space learned by a contrastive vision-language model and utilizes a pre-trained large language model to generate interpretable captions. We validate our method through fine-grained voxel-level captioning across higher-order visual regions. We further perform text-conditioned image synthesis with the captions, and show that our images are semantically coherent and yield high predicted activations. Finally, to demonstrate how our method enables scientific discovery, we perform exploratory investigations on the distribution of ‘person’ representations in the brain, and discover fine-grained semantic selectivity in body-selective areas. Unlike earlier studies that decode text, our method derives voxel-wise captions of semantic selectivity. Our results show that BrainSCUBA is a promising means for understanding functional preferences in the brain, and provides motivation for further hypothesis-driven investigation of visual cortex.

arxiv情報

著者 Andrew F. Luo,Margaret M. Henderson,Michael J. Tarr,Leila Wehbe
発行日 2024-05-02 17:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC パーマリンク